数据 的 采集 、 聚 集 以 及 可 视 化 仅仅 是 数据 分 析 整 体 工程 的 一 部 分 ， 要 从 海量 数据 中 抽取 出 有 价值 的 信息 是 目前 大 数据 应 用 领域 一 项 新 的 并 且 有 挑战 性 的 工作 。 作 为 大 数据 的 技术 基石 ， 机 器 学 习 这 一 新 
兴学 科 虽 然 已 经 被 越 来 越 多 的 人 们 所 认识 ， 但 由 于 学 科 自身 的 交叉 性 ， 许 多 算法 往往 让 人 觉得 复杂 和 难以 理解 。 本 书 作 者 作为 一 名 资深 的 数据 科学 家 ， 借 助 当前 机 器 学 习 和 数据 分 析 领 域 最 常用 的 工具 R 语 
言 ， 分 享 了 其 在 数据 分 析 领 域 实践 机 器 学 习 算 法 的 诸多 心得 。 

本 书 内 容 全 面 ， 深 入 浅 出 地 介绍 了 采用 语言 实现 包括 分 类 、 回 归 、 聚 类 、 关 联 分 析 等 常用 的 机 器 学 习 算 法 的 知识 ， 每 一 个 算法 都 通过 案例 详细 说 明了 构建 模型 、 实 现 模型 以 及 评价 模型 的 过 程 。 同 时 ， 
为 了 照顾 初学 者 ， 本 书 也 涵盖 了 R 语 言 的 基础 知识 ， 包 括 环境 准备 、 数 据 转换 、 分 析 和 结果 可 视 化 的 方法 。 本 书 最 后 抛砖引玉 ， 展 示 了 使 用 RHadoop 处 理 和 分 析 海 量 数据 的 过 程 。 

阅读 完 本 书 并 亲自 动手 完成 作者 所 有 算法 案例 后 ， 您 将 对 机 器 学 习 和 R 语 言 都 有 更 深入 的 了 解 ， 设 计 学 习 算法 来 发 现 隐藏 在 数据 中 有 价值 的 模式 也 不 再 是 迁 不 可 及 的 目标 。 


本 书 能 够 得 以 出 版 ， 要 感谢 机 械 工 业 出 版 社 的 缘 太 、 余 洁 编 辑 ， 他 在 翻译 过 程 中 给 予 了 我 们 很 多 建设 性 的 指导 意见 。 其 次 ， 还 要 感谢 吴 怡 编辑 ， 是 她 让 我 们 与 机 械 工 业 出 版 社 结缘 。 


由 于 教学 科研 需要 ， 译 者 很 早 就 已 经 接触 了 机 器 学 习 这 一 领域 , 但 由 于 学 科 发 展 速 度 日 新 月 异 ， 在 翻译 过 程 中 我 们 仍然 遇 到 了 一 些 问 题 ， 尽 管 我 们 在 此 期 间 查 阅 了 大 量 的 文献 及 网 络 资源 ， 并 逐 字 逐 名 


地 对 译 稿 进行 了 反复 推 谢 和 琢磨 ， 还 是 不 可 避免 地 存在 错误 和 疏漏 之 处 ， 还 望 各 位 读者 不 言 指正 。 


如 今 ， 大 数据 在 诸多 领域 已 经 成 为 一 个 时 蓝 的 热门 词汇 ， 越 来 越 多 的 人 开始 接触 并 考虑 引入 这 一 技术 以 促进 公司 产品 的 销售 获得 更 多 利润 。 然 而 ， 数 据 的 采集 、 聚 集 以 及 可 视 化 仅仅 是 数据 分 析 整 体 工 


程 的 一 部 分 ， 要 从 数据 中 抽取 出 有 价值 的 信息 才 是 一 项 有 挑战 性 的 新 工作 。 

大 多 数 研究 人 员 习 惯 依据 历史 样本 数据 进行 统计 分 析 ， 这 种 处 理 方法 的 次 端 在 于 从 统计 分 析 中 能 够 获得 的 信息 十 分 有 限 。 事 实 上 ， 科 学 家 们 经 常 要 解决 从 目标 数据 中 发 现 被 隐藏 的 模式 以 及 探索 未 知 关 
系 的 问题 。 目 前 ， 机 器 学 习 已 经 逐渐 成 为 除 统计 分 析 以 外 的 一 种 新 的 分 析 方 法 ， 它 使 用 学 习 工 法， 结合 输入 的 样本 数据 ， 能 够 得 到 更 加 精确 的 预测 模型 。 通 过 机 器 学 习 ， 商 业 操 作 及 其 发 展 趋势 的 分 析 不 再 
局 限于 人 脑 层面 的 思考 ， 机 器 层面 的 分 析 使 企业 能 够 在 大 数据 中 发 现 潜在 价值 。 

了 语言 是 目前 机 器 学 习 和 数据 分 析 领 域 最 常用 的 工具 ， 开 源 和 


& 费 的 优势 使 得 它 成 为 最 受 数 据 科 学 家 们 欢迎 的 主流 语言 。R 语 言 为 用 户 提供 了 丰富 的 学 习 包 和 可 视 化 函数 ， 用 户 不 需要 掌握 任何 分 析 过 程 
背后 数学 模型 的 细节 就 能 很 简单 地 通过 R 语 言 在 数据 集 上 执行 机 器 学 去 


习 工 法， 快捷 地 完成 数据 分 析 任务 。 
本 书 采取 了 务实 的 方法 介绍 如 何 使 用 R 语 言 来 实践 机 器 学 习 。 全 书 共 12 章 ， 每 章 包 含 若干 小 节 ， 当 读者 循序 渐进 地 学 习 完 每 一 小 节 后 ， 将 能 够 使 用 数目 繁多 的 机 器 学 习 包 构建 自己 的 预测 模型 。 


2l *à zl 


本 书 首先 引导 读者 学 会 搭建 一 个 R 语 言 环 境 并 使 用 简单 的 R 命 令 来 观察 数据 。 接 下 来 读者 将 学 习 利 用 机 器 学 习 算 法 进行 统计 分 析 并 评价 生成 模型 ， 以 及 如 何 使 R 语 言 与 Hadoop 结 合 以 构建 大 型 数据 分 析 平 


izg 


台 。 本 书 所 涉及 的 全 部 机 器 学 习 案 例 都 附带 了 详细 的 说 明 。 


我 们 相信 ， 读 完 这 本 书 你 将 发 现 机 器 学 习 从 来 没有 这 样 容易 。 


第 1 章 介 绍 了 如 何 创建 一 个 可 用 的 R 环 境 和 基本 的 R 命 令 ， 包 括 数据 读 取 、 数 据 操 纵 、 简 单 的 统计 分 析 以 及 数据 的 可 视 化 。 
第 2 章 介 绍 了 如 何 使 用 R 语 言 进行 探索 性 数据 分 析 ， 以 Titanic 数 据 为 例 ， 探 讨 了 数据 的 转换 、 分 析 以 及 结果 的 可 视 化 。 我 们 建立 了 一 个 预测 模型 ， 来 判断 泰坦 尼克 号 可 能 的 幸存 者 。 
第 3 章 首先 重点 探讨 了 数据 采样 和 概率 分 布 的 概念 ， 然 后 演示 了 对 数据 进行 统计 描述 和 统计 推断 性 统计 的 过 程 。 


第 4 章 探讨 一 个 因 变 量 ( 响 应 变量 ) 和 一 组 或 多 组 独立 的 (预测 量 ) 解释 变量 之 间 的 线性 关系 。 读 者 将 学 习 使 用 各 类 回归 模型 来 解释 数值 间 的 关联 ， 同 时 还 将 学 习 运 用 合适 的 模型 对 连续 变量 进行 预测 。 


第 5 章 介绍 基于 树 的 分 类 器 、k 近 邻 分 类 器 、 还 辑 回归 分 类 器 以 及 朴素 贝 叶 斯 分 类 器 。 为 了 帮助 读者 们 能 够 更 好 地 理解 分 类 器 的 工作 方式 ， 这 一 章 提 供 了 一 个 基于 电信 数据 集 的 用 户 分 类 实例 。 


第 6 章 介绍 了 两 种 复杂 但 功能 强大 的 分 类 算法 : 神经 网 络 和 支持 向 量 机 。 尽 管 这 些 方法 从 根本 而 言 难度 都 较 大 ， 但 通过 这 一 章 的 学 习 ， 读 者 会 发 现在 R 语 言 里 使 用 这 些 算法 做 出 精确 的 预测 是 一 件 非常 容 
易 的 事情 。 


第 7 章 展示 一 些 评估 模型 性 能 的 方法 ， 通 过 这 些 检 验方 法 ， 我 们 能 够 从 中 挑选 出 最 优化 的 模型 应 用 于 预测 。 

第 8 章 探讨 集成 分 类 器 ， 相 对 于 单一 分 类 器 ， 集 成 分 类 器 在 分 类 和 回归 处 理 方面 具有 更 多 优势 。 而 监 于 其 在 很 多 数据 预测 比赛 中 的 良好 表现 ， 读 者 更 应 该 了 解 在 项 目 中 如 何 使 用 集成 分 类 器 。 

第 9 章 讨 论 多 种 聚 类 算法 。 通 过 聚 类 ， 我 们 能 够 发 现 对 象 间 的 共性 ， 该 章 使 用 聚 类 工法 对 顾客 进行 划分 ， 同 时 比较 了 不 同 聚 类 算法 之 间 的 差异 。 

第 10 章 讨论 了 如 何 发 现 事 务 数据 中 所 隐 含 的 常见 模式 和 关联 项 。 

第 11 章 介绍 如 何 从 原始 变量 中 选择 和 抽取 特征 。 借 助 降 维 ， 我 们 能 够 消除 宛 余 特征 对 分 析 结 果 的 影响 ， 并 降低 计算 的 代价 以 避免 模型 的 过 度 适 应 。 该 章 将 借助 一 个 具体 的 图 像 压缩 和 存储 案例 解释 降 维 
方法 。 

第 12 章 介绍 RHadoop 处 理 和 海量 数据 分 析 ， 以 及 如 何 使 用 RHadoop。 该 章 依 次 介绍 了 RHadoop 环 境 的 构建 ， 使 用 机 器 学 习 方 法 处 理 实际 的 海量 数据 集 ， 最 后 该 章 探 讨 了 使 用 亚 蕊 进 弹 性 计算 云 (Amazon 
EC2) 服务 来 部 署 RHadoop 集 群 。 

附录 A 提 供 R 和 与 机 器 学 习 相 关 的 所 有 资源 。 


附录 B 提 供 泰 坦 尼 克 号 幸存 者 的 数据 集 。 


学 习 指南 


如 果 希 望 实践 本 书 中 的 案例 ， 你 需要 一 人 台 安 装 了 R 语 言 包 并 且 能 够 访问 Internet 的 计算 机 。 读 者 可 以 从 http://www.cran.t-project.otrg/ 下 载 安 装 程序 ， 详 细 的 安装 说 明 可 以 在 本 书 第 1 章 中 找到 。 


本 书 所 提供 的 全 部 示例 程序 都 已 经 在 R 3.1.2 版 本 +Windows 环 境 下 测试 成 功 ， 示例 也 同样 适用 于 安装 在 Mac OS X 以 及 类 UNIX OS 系 统 上 的 最 新 版 本 的 R 语 言 包 。 


本 书面 向 的 读者 
本 书 适合 那些 希望 了 解 并 掌握 R 语 言 实践 机 器 学 习 完 成 数据 观察 的 读者 ， 我 们 在 书 中 介绍 了 R 语 言 的 基础 知识 ， 那 些 具备 基本 编程 能 力 或 了 解 机 器 学 法 的 读者 们 能 够 在 学 习 本 书后 有 所 收获 ， 但 如 果 


读者 没有 任何 R 语 言 的 基础 也 没有 关系 。 
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数据 科学 项 目 (Data Science Program, DSP) ， 以 及 其 他 支持 过 我 的 朋友 表示 感谢 。 


目前 在 荷兰 工作 的 数据 科学 家 ， 于 东安 格 利 亚 大 学 获得 知识 发 现 和 数据 挖 气 硕 士 学 位 ， 开 放 知 识 基金 会 和 数据 学 院 的 志愿 者 ， 负 责 与 开放 数据 相关 的 项 目 ， 以 及 数据 新 闻 和 数据 可 视 化 领 


(Packt 出 版 社 ) 的 评审 人 ， 目 前 正 致力 于 撰写 


Tarek Amr 


域 的 培训 工作 。Tatrek 还 是 另外 一 本 书 《Python Data Visualization Cookbook? 一 本 有 关 使 用 D3.js 实 现 数据 可 视 化 的 书籍 。 有 关 他 的 更 多 信息 请 参 


Jb: http://tarekamr.appspot.com/ o 


Abir Datta Cognizant Technology Solutions 公 司 的 数据 科学 家 ， 专 注 于 保险 、 金 融 服 务 和 数字 化 纵向 分 析 。Abir 主 要 负责 分 析 、 预 测 建 模 ， 为 不 同行 业 用 户 提 供 商务 智能 /分 析 领 域 端 到 端的 海量 数据 集 


成 解决 方案 ， 从 而 为 用 户 解决 商务 分 析 问 题 。Abit 也 开发 了 一 些 算 法 来 识别 顾客 潜在 的 特征 以 形成 战略 决策 通道 ， 从 而 获得 更 大 的 商业 成 功 。 


Abit 对 风险 模型 也 有 所 研究 ， 是 当前 他 所 服务 的 公司 内 负责 开发 风险 控制 平台 小 组 的 一 员 ， 该 平台 已 经 被 众多 银行 和 金融 服务 机 构 认 可 。 


目前 在 印度 卡 哈 拉 格 普尔 的 印度 理工 学 院 从 事 数据 挖掘 及 机 器 学 习 领 域 的 研究 工作 。 他 同时 还 拥有 印度 奥 里 萨 邦 国家 技术 研究 所 电子 与 通信 工程 硕士 学 位 。Saibal 担 任 了 HCL 有 限 公司 和 


Saibal Dutta 
培 生 (美国 ) 等 国际 大 公司 都 有 过 合作 ， 而 他 对 创业 的 热情 也 引导 他 在 数据 分 析 领 域 创办 了 属于 自己 的 企业 ， 目 前 该 企业 正 处 于 


诺基亚 公司 的 软件 开发 顾问 。 在 长 达 4 年 的 顾问 工作 中 ， 他 与 宜家 (瑞典 ) 、 
bootstraping 阶 段 。Saibal 熟 悉数 据 挖掘、 机 器 学 习 、 图 像 处 理 和 商务 咨询 。 
径 验 。 他 也 是 高 频 及 算法 交易 方面 的 专 


Ratanlal Mahanta 拥有 计算 金融 硕士 学 位 ， 目 前 在 GPSK 投 资 集团 担任 高 级 量化 策略 分 析 师 。 拥 有 4 年 为 投资 银行 及 风险 管理 公司 提供 量化 交易 及 战略 研究 的 经 


家 ， 拥 有 以 下 领域 的 从 业经 验 : 
“ 量化 交易 : FX、 股票、 期货、 买卖 以 及 金融 衍生 品 技 术 。 
- 算法 : 偏 微分 方程 、 随 机 微分 方程 、 有 限 差 分 法 、 和 蒙特 卡 罗 算 法 以 及 机 器 学 
- 编码 : 有 编程 、C++、MATLAB、HPC 以 及 科学 计算 。 


. 数据 分 析 : 海量 数据 分 析 (EOD 到 TBT) . Bloomberg. Quandl V4 Quantopian. 


策略 研究 : Vol 套利 、 常 规 及 奇异 期 权 操 作 建 模 、 趋 势 跟 踪 、 均 值 回 上 归 、 协 整 、 蒙 特 卡 罗 仿 真 、 风 险 价 值 、 压 力 测 试 、 高 夏普 率 买 方 交易 战略 、 信 用 风险 建 模 以 及 信用 评级 。 


习 以 及 稳健 预测 技术 。 他 拥有 机 器 学 习 及 海量 数据 挖掘 方面 的 博士 学 位 。 目 前 ，Ricky 正 负责 一 项 应 用 数学 方面 的 研究 ， 和 希望 将 学 术 研 究 成 果 推 广 


Ricky Shi 量化 交易 员 和 研究 者 ， 专 注 于 大 规模 机 器 学 
以 及 由 Philip S.Yu 教 授 领 导 的 Engineetrs Gate Manager LP。 


至 现实 领域 。 他 与 众多 研究 机 构 和 公司 都 有 合作 ， 包 括 雅 虎 实验 室 、AT&T 实 验 室 、Eagle Seven、 摩 根 斯 坦 利 股权 交易 实验 室 (ETL) ， 


他 的 研究 内 容 包 括 : 
: 异 构 数据 相关 性 分 析 ， 例 如 从 用 户 的 人 口 统 计 特 征 和 用 户 社 交 网 络 进行 社交 广告 分 析 。 


序 对 象 关联 分 析 ， 例 如 动态 相关 性 分 析 ， 寻 找 当 前 最 有 影响 力 的 金融 产品 (震荡 检验 、 登 加 图 ) ， 并 将 其 用 于 套 期 保值 和 投资 组 合 管理 中 。 


学 习 任 务 关 联 分 析 ， 例 如 传递 学 习 。 


Jithin SL 于 洛 约 拉 科 技 学 院 获 得 信息 技术 学 士 学 位 ， 从 分 析 领 域 起 步 到 各 应 用 领域 大 数据 分 析 ，Jithin 与 许多 知名 的 机 构 都 合作 过 ， 包 括 汤 森 路 透 、IBM、Flytxt 等 ， 完 成 了 不 同 的 任务 ， 涉 足 领域 包括 


银行 、 能 源 、 医 疗 健康 以 及 通信 等 ， 并 解决 过 全 球 性 大 数据 应 用 项 目 。 
Jithin 在 许多 国内 外 会 议 都 发 表 过 有 关 技 术 和 商务 方面 的 研究 论文 。 


他 的 人 生 格 言 是 学 习 是 永 无 止境 的 过 程 ， 它 对 我 们 理解 、 抽 象 现实 世界 并 为 这 个 世界 带 来 新 生 事 物 都 有 帮助 。 


第 1 章 ” 基 于 R 实 践 机 器 学 习 


机 器 学 习 的 主要 目标 包括 发 现 隐藏 在 数据 中 的 模式 、 未 知 天 联 以 及 有 价值 的 信息 。 除 此 之 外 ， 机 器 学 习 结 合 数据 分 析 技术 也 可 以 应 用 于 预测 分 析 。 有 了 机 器 学 习 ， 对 商业 活动 的 分 析 和 处 理 就 不 再 局 限 
于 人 工 处 理 ， 而 是 可 以 借助 机 器 的 分 析 发 现 海量 商业 数据 中 所 隐藏 的 价值 。 

机 器 学 习 和 人 类 思维 模式 有 共通 之 处 ， 传 统 数据 分 析 方 法 无 法 应 对 由 于 数据 累积 更 新 而 对 分 析 模 型 带 来 的 影响 ， 而 机 器 学 习 可 以 不 断 地 从 正在 被 处 理 和 分 析 的 数据 中 获得 信息 ， 也 就 是 说 ， 算 法 处 理 的 
数据 越 多 ， 其 建 模 能 力 就 越 强 。 

作为 GNU-s 语 言 的 一 个 分 支 ，R 是 一 种 功能 强大 的 统计 语言 ， 被 广泛 应 用 于 数据 的 处 理 和 分 析 。 另 外 ，R 还 提供 了 很 多 有 关机 器 学 习 的 包 和 数据 可 视 化 的 函数 ， 使 得 用 户 能 够 简单 快速 地 完成 数据 分 析 。 
当然 ， 最 重要 的 是 ，R 还 是 一 个 免费 的 开源 工具 。 


R 在 很 大 程度 上 降低 了 实践 机 器 学 习 的 复杂 度 ， 我 们 仅 需 要 了 解 哪 一 个 算法 可 以 解决 问题 ， 利 用 已 经 写 好 的 包 和 简单 的 几 行 命令 ， 就 能 针对 数据 构建 相应 的 预测 模型 。 例 如 ， 我 们 既 可 以 利用 朴素 贝 叶 斯 
方法 来 进行 广告 垃圾 邮件 的 筛选 ， 也 可 以 基于 k 均 值 算法 来 对 顾客 类 别 进 行 划分 ， 还 可 以 借助 线性 回归 模型 来 预测 未 来 的 房价 ， 或 者 就 像 下 面 这 个 图 一 样 ， 通 过 隐 马 尔 可 夫 模 型 来 预测 未 来 股票 市 场 。 


IXIC Predict [2012-01-03/2015-01-16] 


1 Last4634.38 
XIC_ PredictMIC Predictl, 2] == 1, 1] :4765 380 
IXIC Predict[[XIC Predictl 2] == 2, 1] -4748.400 
IXIC Predici[[XIC Predici[, 2] == 3, 1] :4726.810 Ae 
IXIC Predict[IXIC Predict[, 2] == 4, 1]:4634. 3298€ 3 
IXIC. Predict[[XIC Predict[, 2] == 5, 2p 


3900 


3000 


一 月 02 2014 





使 用 R 预 测 股票 涨 跌 


更 进一步 地 ， 我 们 还 可 以 利用 非 线性 降 维 来 计算 图 像 数 据 之 间 的 相 异 性 ， 并 如 下 图 所 示 那 样 ， 通 过 图 形 展示 聚 类 结果 。 具 体 的 操作 会 在 书 中 接 下 来 的 章节 中 提 及 。 





人 脸 图 像 聚 类 结果 可 视 化 


本 章 将 从 整体 上 对 机 器 学 习 及 R 语 言 进行 一 个 概要 介绍 ， 第 一 小 节 包 括 如 何 搭建 R 及 其 集成 开发 环境 RStudio， 配 置 环境 后 ， 接 下 来 的 一 小 节 说 明 安 装 和 导入 R 的 算法 包 。 为 了 更 好 地 了 解 如 何 使 用 R 来 完 


成 数据 的 分 析 ， 后 面 的 4 小 节 将 探讨 包括 数据 的 读 写 、 数 据 操作 、 基 本 统计 方法 以 及 数据 的 可 视 化 。 本 章 最 后 一 节 将 列 出 有 用 的 数据 来 源 和 其 他 资源 清单 。 


第 1 章 ”基于 R 实 践 机 器 学 习 


1.1 简介 
机 器 学 习 的 主要 目标 包括 发 现 隐 藏 在 数据 中 的 模式 、 未 知 关联 以 及 有 价值 的 信息 。 除 此 之 外 ， 机 器 学 习 结合 数据 分 析 技 术 也 可 以 应 用 于 预测 分 析 。 有 了 机 器 学 习 ， 对 商业 活动 的 分 析 和 处 理 就 不 再 局 限 
息 ， 也 就 是 说 ， 算 法 处 理 的 


于 人 工 处 理 ， 而 是 可 以 借助 机 器 的 分 析 发 现 海量 商业 数据 中 所 隐藏 的 价值 。 
机 器 学 习 和 人 类 思维 模式 有 共通 之 处 ， 传 统 数据 分 析 方 法 无 法 应 对 由 于 数据 累积 更 新 而 对 分 析 模 型 带 来 的 影响 ， 而 机 器 学 习 可 以 不 断 地 从 正在 被 处 理 和 分 析 的 数据 中 获得 信息 


， 被 广泛 应 用 于 数据 的 处 理 和 分 析 。 另 外 ，R 还 提供 了 很 多 有 关机 器 学 习 的 包 和 数据 可 视 化 的 函数 ， 使 得 用 户 能 够 简单 快速 地 完成 数据 分 析 。 


数据 越 多 ， 其 建 模 能 力 就 越 强 。 
作为 G6NU-S 语 言 的 一 个 分 支 ，R 是 一 种 功能 强大 的 统计 语言 
当然 ， 最 重要 的 是 ，R 还 是 一 个 免费 的 开源 工具 。 
题 ， 利 用 已 经 写 好 的 包 和 简单 的 几 行 命令 ， 就 能 针对 数据 构建 相应 的 预测 模型 。 例 如 ， 我 们 既 可 以 利用 朴素 贝 叶 斯 
还 可 以 借助 线性 回归 模型 来 预测 未 来 的 房价 ， 或 者 就 像 下 面 这 个 图 一 样 ， 通 过 隐 马 尔 可 夫 模 型 来 预测 未 来 股票 市 场 。 


R 在 很 大 程度 上 降低 了 实践 机 器 学 习 的 复杂 度 ， 我 们 仅 需要 了 解 哪 一 个 算法 可 以 解决 问题 
方法 来 进行 广告 垃圾 邮件 的 筛选 ， 也 可 以 基于 k 均 值 算法 来 对 顾客 类 别 进行 划分 ， 


IXIC Predict [2012-01-03/2015-01-16] 


| ast 4634.38 

IXIC. Predici[[XIC Predictl, 2] == 1, 1] :4765.380 

IXIC  Predict[[XIC Predict[, 2] == 2, 1]:4748.400 ,- 

IXIC  Predict[[XIC Predict[, 2] == 3, 1] 4726.810。 BR i 
IXIC  Predict[[XIC Predict[, 2] == 4, 1]:4634. 30998. 3 - 


IXIC Predict[IXIC Predict[, 2] == 5, 1] :4784 3t 


一 月 02 2013 十 二 月 31 2014 





使 用 R 预 测 股票 涨 跌 


更 进一步 地 ， 我 们 还 可 以 利用 非 线性 降 维 来 计算 图 像 数 据 之 间 的 相 异 性 ， 并 如 下 图 所 示 那 样 ， 通 过 图 形 展示 聚 类 结果 。 具 体 的 操作 会 在 书 中 接 下 来 的 章节 中 提 及 。 





人 脸 图 像 聚 类 结果 可 视 化 


本 章 将 从 整体 上 对 机 器 学 习 及 R 语 言 进行 一 个 概要 介绍 ， 第 一 小 节 包 括 如 何 搭建 R 及 其 集成 开发 环境 RStudio， 配 置 环境 后 ， 接 下 来 的 一 小 节 说 明 安 装 和 导入 R 的 算法 包 。 为 了 更 好 地 了 解 如 何 使 用 R 来 完 
成 数据 的 分 析 ， 后 面 的 4 小 节 将 探讨 包括 数据 的 读 写 、 数 据 操 作 、 基 本 统计 方法 以 及 数据 的 可 视 化 。 本 章 最 后 一 节 将 列 出 有 用 的 数据 来 源 和 其 他 资源 清单 。 


1.2 "REGRISCER 


要 使 用 R， 当 然 需要 首先 在 机 器 上 安装 R。 本 节 将 详细 介绍 下 载 和 安装 R 的 过 程 。 

1. 准 备 
如 果 读 者 是 R 初 学 者 ， 可 以 在 R 的 官方 网 站 (http;//www.r-project.org/) 找到 详细 的 介绍 ， 包 括 R 语 言 的 发 展 历史 以 及 它 的 功能 。 如 果 已 经 准备 好 下 载 和 安装 R， 可 以 访问 以 下 链接 : 
http://cran.r-project.org/ 

2. 操 作 


执行 以 下 操作 ， 在 Windows 或 Mac 环 境 下 完成 R 的 下 载 及 安装 工作 : 


1) 访问 RCRAN 网 站 (http://www.r-project.org/) ， 单 击 download R 链 接 ， 指 向 http://cran.r-project.org/mirrors.html) : 


The R Projec 


t for Statistical Computing 


Getting Started: 


F ini emviroeamesr for sxeinical coenpursng and graplscs I1 compsles and runs on a wide variery of UNIX pisrfoeeni. Windows and MacOS. 
| Fr 一 一 please chexse vour prefened CRAN mara 
yon Exc questions sbont A like howto devmnload and mtall te sofewsee. ec what the license terms are. planse rend cor gimmer to £requently aked 


uestes before yon vend an emad 


2) 选择 离 自己 最 近 的 镜像 网 站 : 


ET Packnges 
"RAN 


R Froot 
Fomor 


Mula Lus 
Bug Tracii 
Dexeloper Page 


Conssi 
Scarch 


ae amma a ea 


3) 根据 本 机 操作 系统 选择 合 





CRAN Milriors& 


The Comprelensre R Azrcluve Nerwosk is avmiatle m the following URL s. pleme choose n location close to veu. Scis eimtistics on tlie serus cf rhe maron cen be 
foul here quan page Doudous iciae. wdowa odd release 


DC lo 
bi cran ridic ccm. 


Argenrain 





适 的 版 本 下 载 : 


CRAN 的 镜像 网 站 


Ronidio, mnemauc radiacion ro servers worldwide 
Univervadad Nacional de La Plasa 


CSIRO 
L'niverssy of Methourue 


Warrechafsusssersaaer Wo 
EU Laren Arsia 


Ceurer for Comp Biol at Urveridnde Estadual de Sanra Cruz 
[LDPE Federal do Parana 

Cn waldo Cruz Foundareon. Foo de Tausire 

Lmnisersste of Sao Pado So Paulo 

Lniverisy of Seo Paulo. Puracicaba 


Simoa Fraser Lnrreruy Burnalre 
Dafhousse L'imersry Hallas 
luanenury of Toronto 

18 eh. Somn ea; 

iWeb. Montreal 








The Comprehensive R Archive Network 
Download and Install R 


Precoeapiled binary distriburious of the base system and coatribured packages. Windows and Mac users most likely wass oue of 
[ese verons of R 


R is part of many Lamix dustributicas. yon should check with vour Luam package manageme svetem m sddinon to the link 
abore 


pem Code for all Platforms 
"Windows and Mac users most likely want to download the precompiled binaries listed an the upper box. not the scurce code. The 
nuces base to be Tcsnlsledl before soni can ese theni [1 som do not keow what rizi micans vou probably do mot wint to do it 


a The lest release (2014-20-31. Pumpiin Helmer) R-3 1 Zar gz. read vitiars gew us the laresr vermon 
* Sources of E alpha aud besa r2]eases (daily snapshots. created only m time perzods before a planned release) 


*. Domi snapshots of curreri patched mnd development versvons are xcajisb]e here Plesse read about pew fentures and beg 
üns before Alang corresponding fanme requests or bug reports 


* Source code of older verszons of R 1s wealoble herz 
< Continued extenssm package: 


L 
Questions About R 


< [f von hme questions sbout R like how to download and uistall the softwme, or what the lceuse terms me. please read our 
anisvers ro &egueuris asked questions before yon send an email 





根据 本 机 OS 选择 下 载 链接 
由 于 在 Windows 和 Mac 上 安装 R 的 过 程 不 一 样 ， 因 此 下 面 分 别 为 这 两 个 操作 系统 提供 安装 R 的 操作 指南 。 
对 于 Windows 用 户 : 


1) 单 击 Download R for Windows， 如 下 图 所 示 ， 再 选择 base: 


R for Windows 


Subidu ectorsex 


Bianes for base dzstriburion (managed by Duncan Muntoch] Tisi is miar von wass to astal R for the fias rune 


- | Buanes of contributed packages (managed by Uwe Ligges) There 15 also information on tlurd parte sofeeare armlabbe 
for CRAN Windona services and comespondang esi uonment and make yansbles 


Tools to build R and R packages (managed by Duacan Murdoch). This i1 what you wiar to bd vow own packages ou 
Eno: Wiandeows. or to benld R se 六 


Please do zx subuxitr bmarses to CRAN Package developers maba wass to contact Duncana Murdoch or Uwe Linges Garecthy in case of questions uggestems related 
to Wimdows busaries 


You may also wuu to read che E EAQ and R for Wandows FAQ 


Note. CRAN doct snnt checks on esr benarues fes Cuuses bet cannot gie gumantees Use the normal precautsams with downloaded execurables 





3; £& Download R for Windows 并 单 击 base 


2) 单 击 Download R 3.x.x for Windows: 


Wew features in Urs version 


CRAN 


E. 
NMarets 
Whats ne^ If you want to double-check that the package vou have downloaded exactly masches the package distribated by R. vou can compare the mdisum of the exe to dise tue 


Ink View HT er You will meet à wer o£ mdisum for wuds: borh giapbacal aud Con id luxe Tersons are avaiabie 


Frequently asked questions 


Please see the R FAO for general information abont R. and the RE. Windev FAQ for Windoms-specific informntion 


Other builds 


s Parches ro this release are acosporared iui he c-parcbei snapshot wuld 


Documentation e. A build of the development vernon Chhsch will eventually become ibe next maar release of R) i avmlable m the g-devel sumpsit bud 


M ils . eto elenen 
FAN; 


Conribered Note to webmasters: A stable Bok which will redirect to the currexa Windows binary selease zs 


CRAN MIRROR. bs dona bic reiont hin 


Last change: 2014-10-31. by Duncan Murdoch 





如 果 是 Windows 用 户 单 击 Download R 3.x.x 


3) 下 载 安装 文件 ， 当 下 载 完成 后 ， 双 击 安装 文件 开始 安装 R: 


Welcome to the R for Windows 
3.1.2 Setup Wizard 
This will install R for Windows 3.1.2 on your computer. 


It is recommended that you dose all other applications before 
continuing. 


Click Next to continue, or Cancel to exit Setup. 





4) 在 Windows 环 境 下 安装 R 非 常 简单 ， 安 装 向 导 会 一 步 步 引 导 我 们 完成 安装 过 程 (公众 授权 协议 、 安 装 目的 文件 夹 、 可 选项 、 局 动 项 、 启 动 菜单 栏 以 及 可 选 的 附加 任务 ) ， 如 果 我 们 不 希望 进行 任何 更 
改 ， 也 可 以 直接 选择 所 有 的 默认 安装 配置 。 


5) 当成 功 安装 完 R 后 ， 在 本 机 开始 菜单 中 会 增加 一 个 指向 R 应 用 的 快捷 菜单 ， 单 击 后 能 够 打开 R 控 制 台 。 


Packages Windows Help 


R version 3.0.2 (2013-09-25) -- "Frisbee Sailing" 
Copyright (C) 2013 The R Foundation for Statistical Computing 
Platform: x86 64-w64-mingw32/x64 (64-bit) 


R is free software and comes wirch ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license()' or 'licence()' for distribution details. 


Natural language support but running in an English locale 
R is a collaborative project with many contributors. 
Type 'contributors()' for more information and 
'civtation()' on how to cive R or RH packages in publications. 
Type 'demo()' for some demos, 'help()' for on-line help, or 
'help.start()' for an HIML browser interface to help. 
Type 'qí()' to quit E. 


[Previously saved workspace restored] 


> | 





\Windows 的 及 控制 台 
对 于 Mac 用 户 : 
1) 单 击 Download R for (Mac) OS X， 如 下 图 所 示 。 


2) 根据 本 机 Mac Os 的 版 本 ， 单 击 当前 最 新 版 本 (.pkg 文 件 扩展 名 ) : 


R for Mac OS X 


Thas directory. contauss binaries for a base distribut;ou and packages to rur on Mac OS X (release I0 5 md above) Mac OS $ 510 9 7 (3nd Mac O5 X 10 Li »re no 
longes supported ban you can find the last supported release of R for these systems (wtoch i R 1.7. D aere. Releases for old Mac OS X systems cehrough Mac OS X 
10 55 and Poser PC Macs cimi be found us the oi directos 


Nore CRAN does not have Mac OS X cverems asd Can check these buiaries for viruses Althoozh we mke precautions when assembling binaries. please use 中 = 
nora] prec nituces with downloaded executables 


R 3.1.2 "Pumpkin Melwet" released om 2614/10/11 
Thus bury dastribmitico of R and the GUI supports 83-bu [mte] based Macs oc Mac OS X 10 6 (Snow Leopard) or higher 
Please check the MDS checkin of the &wnloaded unsge to ense that a has not beer temperet witi oa corrupted hirmg the eurroruig geoxess For example rope 
5 &- 2-maoerlicoks. px 
nds hend ee uo d print the MDS chlseckeuzn &n the R-3 1 Jma enecki pkg miage On Mac OS X [0 7 and Lotes veni can alsa caludate the signature uxing 
phautil --check-slgh^atuere 8-3.1, 2- aver 1chs gkg 


Files: 


3 | -IOwWieoCars R 3.1.2 hy for Mac OS X 106 (Snow Leopard) aul bagher. signed package Contes R31 7 


^ Oink Ig) 220b 56 23926 1 700 dac fl afi &ansesock. Rapp GUI 1 65 m hba for imel Macs Tbe above file is an Installer package which can 
~ 3 be uiszalled by double-check Depending ca vour browser. vou may need 10 peess he eoenral kes 
Dux o mariranees (za 63MB) scd chick on this link 19 donnload the file 


Maprani 


This package conrauss the R framework. 64-bar GUT (R app} and Tel TE 8 60 X11 bbranes The lanei 
componer? 1* options] apd can be cemmtted niyen choosing custom mstali™. it 19 eoly needed if vou 
wani to use the telti R package GNU Forman ss NOT uxcbxded (needed if yon want to compile 
pockages fiom sources that courts FORTRAN code! piense see nhe 10ols daectory 


R.-3.1. 2-0 Grac ks gkg R 3.1.2 ba fi Mac OS X 169 [Mave ad lugba, sagned package It contmns the sat 
MDi-kuh dié zz Banc OU ctl sofware versaons as above, bot thas R build has been buit with Xcode 5 to leverage new compilers 


SEAL- - tam ^. * - ^ t m P as 
ars ac Pinetioesbityes i Mavencks ucc available is earlier OS X versions 


2 «a A ^ E S 
nm Note the vse of X11 (incloding 1cirk) requires urtz eo be installed sance :* 15 no longer part of OS 


X Always re-install XQuartz when uparaduzz vour OS X 10 a new major versoan 





3) 双击 下 载 的 R 安 装 文件 (.pkg 文 件 扩展 名 ) 开始 安装 R， 如 果 不 想 做 任何 更 改 ， 我 们 可 以 直接 选择 所 有 默认 的 安装 选项 。 





3R3. 1.2 for Mac OS X 10.9 or higher (Mavericks build) Installer 


This installer will guide you through the steps necessary to setup R 3.1.2 
| (2014-10-31) -- "Pumpkin Helmet" for Mac OS X 10.9 (Mavericks) 
| or higher on your machine. 


Desti 
Installá 
Install 


Sum; 





Go Back 





4) 跟随 当前 屏幕 指示 ， 包 括 Introduction、Read Me, License, Destination Select, Installation Type, Installation, Summary, &&continuefZtlizepkse, 


5) 当 文 件 安装 完毕 后 ， 使 用 Spotlight Search 或 直接 从 应 用 程序 文件 夹 找到 R: 


QR 


TOP HIT 
H 
APPLICATIONS 


RStudio 

Reminders 

iTunes 

Microsoft Office Reminders 


RAID Utility 
FOLDERS 
H -software 


Version: A 3.1.2 GUI 1.65 Mavericks build 


R - distfiles 


Kind Application 
Size 3.7 MB 


H -math 


ru RU.KOIB-R Created 11/1/14 
! Modified 1/20/15 
rb-jabberár Last opened 1/20/15 


LJ 





使 用 Spotlight Seatch 找 到 及 


6) 单 击 R 以 打开 R 控 制 台 : 


R Console 


wA HoA 1-2 ü 


~ OQ, 





R version 3.1.2 (2014-18-31) -- "Pumpkin Helmet" 
Copyright (C) 2014 The R Foundation for Statistical Computing 
Platform: x86 64-apple-darwinl13.4.80 (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license()' or 'licence()' for distribution details. 


Natural language support but running in an English locale 


R is a collaborative project with many contributors. 
Type 'contributors()' for more information and 
'citation()' on how to cite R or R packages in publications. 


Type 'demo()' for some demos, 'help()' for on-line help, or 
'help.start()' for an HTML browser interface to help. 
Type 'aC)' to quit R. 


除了 通过 下 载 Mac.pkg 文 件 来 安装 R，Mac 用 户 还 可 以 使 用 Homebrew 来 安装 R: 
1) 从 https://xquartz.macosforge.org/landing/ 下 载 XQuartz-2.X.X.dmg。 
2) 双击 .dmg 文 件 以 启动 文件 。 


3) 使 用 如 下 命令 来 更 新 brew: 


$ brew update 


$ brew tap homebrew/science 
5) 安装 gfortran: 


$ brew install gfortran 


$ brew install R 


对 于 Linux 用 户 ，Debian、Red Hat、SUSE 和 Ubuntu 都 有 相应 已 经 预 编 译 好 的 二 进 制 代码 ， 相 应 的 ， 我 们 可 以 使 用 源 代码 来 安装 R 除 了 下 载 预 编译 的 二 进 制 代码 ， 我 们 也 能 通过 Linux 的 包 管 理 器 来 安 
装 R。 以 下 是 CentOS 和 Ubuntu 版 本 的 安装 步骤 : 


在 Ubuntu 上 下 载 和 安装 R: 


1) 在 /etc/apt/sources.list 文 件 中 增加 一 个 入 口 : 


$ sudo sh -c "echo 'deb http:// cran.stat.ucla.edu/bin/linux/ 
ubuntu precise/' »» /etc/apt/sources.list" 


2) 更 新 资源 库 : 
$ sudo apt-get update 
3) 用 以 下 命令 安装 R: 
$ sudo apt-get install r-base 
4) 从 命令 行 启动 R: 
$ R 


f£CentOS 5 上 下 载 和 安装 R: 


1) 获取 CentOS 5 的 rpm CentOS5RHEL EPEL 资 源 库 : 


$ wget http://dl.fedoraproject.org/pub/epel/5/x86 64/epel- 
release-5-4.noarch.rpm 


2) 安装 CentOS 5RHEL EPEL 资 源 库 : 
$ sudo rpm -Uvh epel-release-5-4.noarch.rpm 
3) 更 新 安装 包 : 


$ sudo yum update 


$ sudo yum install R 
5) 从 命令 行 启动 R: 
SR 


f£CentOS 6 上 下 载 和 安装 R: 


1) 获取 CentOS 6 的 rpm CentOS5RHEL EPEL 资 源 库 : 


$ wget http://dl.fedoraproject.org/pub/epel/6/x86 64/epel- 
release-6-8.noarch.rpm 


2) 安装 CentOS 5RHEL EPEL 资 源 库 : 
$ sudo rpm -Uvh epel-release-6-8.noarch.rpm 
3) 更 新 安装 包 : 


$ sudo yum update 


$ sudo yum install R 
5) 从 命令 行 启动 R: 


$ R 


3. 原 理 


CRAN 为 Linux、Mac OS 以 及 Windows 都 提供 了 预 编译 二 进 制 文件 。 对 于 Mac 和 Windows 用 户 ， 安 装 过 程 非常 简单 ， 一 般 只 需要 按照 向 导 指引 即 可 完成 。 而 对 于 Linux 用 户 ， 可 以 使 用 包 管理 器 提供 的 
平台 或 者 以 源码 方式 安装 和 部 署 R。 


4 扩展 


如 果 读 者 对 用 源码 安装 R 感 兴趣 ， 请 参考 “R 的 安装 和 管理 ”  (http;//cran.r-project.org/doc/manuals/R-admin.html) 获得 更 多 有 关 在 不 同 平台 安装 R 的 指导 。 


1.3 下载 和 安 委 RStudio 


虽然 我 们 可 以 在 R 控 制 台 、R 命 令 行 以 及 任何 文本 编辑 器 (EMACS、VIM 或 Sublime) 中 编写 R 脚 本 ， 但 Rstudio 集 成 开发 环境 (IDE) 的 辅助 则 可 以 让 开发 变 得 更 加 容易 。 


RStudio 为 程序 开发 提供 了 非常 丰富 的 工具 ， 内 置 功 能 诸如 文本 高 亮 、 自 动 代码 补 全 及 自动 缩 进 等 功能 ， 提 高 了 开发 的 效率 。 为 了 使 R 编 程 具 备 更 好 的 可 管理 性 ，RStudio 将 主 界面 分 为 四 个 窗口 ， 分 别 
为 交互 式 R 控 制 台 、 选 项 卡 式 源码 编辑 器 、 当 前 工作 对 象 与 历史 信息 面板 ， 以 及 集成 了 文件 浏览 器 /绘图 窗口 / 包 安 装 窗口 /R 帮 助 窗口 的 选项 卡 式 面 板 。 另 外 ，RStudio 是 开源 的 ， 可 以 在 Windows、Mac OS 
X 以 及 Linux 等 多 平台 使 用 。 本 节 将 展示 下 载 和 安装 RStudio 的 过 程 。 


1. 准 备 

RStudio 的 安装 要 求 先 安 装 好 R， 当 加 载 RStudio 时 ， 必 须要 定位 到 一 个 R 版 本 ， 因 此 读者 必须 要 完成 前 述 章 节 的 相关 操作 ， 在 安装 RStudio 之 前 先 安装 完成 R。 
2. 操 作 

执行 以 下 操作 ， 下 载 和 安装 Windows 以 及 Mac OS 版 本 的 RStudio: 


1) 访问 RStudio 的 官网 链接 ， 使 用 以 下 URL: http://www.rstudio.com/products/RStudio/ 


2) 如 果 是 安装 桌面 版 本 ， 单 击 “Download RStudio Desktop" (http://www.rstudio.com/products/rstudio/download/) ， 选 择 适 合 本 机 系统 的 RStudio 版 本 。 下 载 相关 的 安装 包 : 
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3) 双击 下 载 的 安装 包 ， 开 始 安装 。Windows 用 户 可 以 按照 屏幕 上 的 安装 向 导 的 指引 进行 : 


(p RStudio Setup 


Welcome to the H5tudio Setup 
Wizard 

This wizard will quide you through the installation of RStudio. 
It is recommended that you dose all other applications 
before starting Setup. This will make it possible to update 
relevant system files without having to reboot your 
computer. 


Click Next to continue. 





4) 如 果 是 Mac 有 用户， 简单 地 将 Rstudio 图 标 拖 到 Application 文 件 夹 即 可 : 


-.| RStudio-0.98.1091 





5) 启动 RStudio : 
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KR is a collaborative project rith sany contributors. 
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'citation(/) cm how to cite R or È packages in publications. 


Type "demo() for some demo ‘helpi for on-lime help or 
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[Workspace loaded from -/. Riata] 
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RStudio4Z 4] 4 
如 果 是 Ubuntu/Debian 或 者 RedHat/CentOS 用 户 ， 可 以 按照 以 下 步骤 下 载 和 安装 RSstudio: 


Debian (6+) /Ubuntu (10.04+) 32 位 : 


$ wget http://downloadl.rstudio.org/rstudio-0.98.1091-i386.deb 
$ sudo gdebi rstudio-0.98. 1091-i386.deb 


Debian (6+) /Ubuntu (10.04«) 64 位 : 


$ wget http://downloadl.rstudio.org/rstudio-0.98. 1091-amd64.deb 
$ sudo gdebi rstudio-0.98. 1091-amd64.deb 


RedHat/CentOS (5, 4+) 32 位 : 
$ wget http://downloadl.rstudio.org/rstudio-0.98. 1091-i686.rpm 
$ sudo yum install --nogpgcheck rstudio-0.98. 1091-i686.rpm 


RedHat/CentOS (5, 4+) 64 位 : 


$ wget http://downloadl.rstudio.org/rstudio-0.98. 1091-x86 64.rpm 
$ sudo yum install --nogpgcheck rstudio-0.98. 1091-x86 64.rpm 


3. 原 理 


RSstudio 可 以 桌面 或 Web 浏 览 器 两 种 方式 运行 。 桌 面 RSstudio 在 Windows、Mac OS X 以 及 Linux 等 平台 均 可 使 用 ， 操 作 方 式 都 差不多 。Windows 和 Mac 用 户 下载 了 RSstudio 编 译 好 的 安装 包 后 ， 直 接 按 
照 向 导 程序 的 指引 就 可 以 完成 安装 。Linux 用 户 可 以 选择 使 用 相应 的 包 管 理 系统 来 安装 。 


4 扩展 


“ 除了 桌面 版 本 ， 用 户 也 可 以 安装 一 个 服务 器 版 本 ， 实 现 多 用 户 访问 。RStuqio 服 务 器 版 本 提供 了 一 个 可 供用 户 访问 RStudio 资 源 的 URL， 如 果 要 安装 RStudio 服 务 器 版 ， 可 以 访 
问 http://www.tstudio.com/ide/download/setvet.html， 在 该 页 面 上 提供 了 Linux 版 本 ， 和 包括 Debian (6+) Ubuntu (10.04+) 、RedHat 和 CentOS (5.4—) 的 安装 说 明 。 


- 对 于 Linux 其 他 版 本 ， 可 以 从 源 代码 安装 RStudio。 


1.4 包 的 安装 和 加 载 


当 安 装 好 R 后 ， 我 们 就 可 以 从 资源 库 下 载 、 安 装 和 更 新 R 的 包 了 。 由 于 R 人 允许 用 户 创建 自己 的 包 ， 用 户 也 可 以 通过 R 的 官方 及 非 官 方 库 来 管理 用 户 创建 的 包 。 其 中 ，CRAN 是 R 官 方 提供 的 资源 库 ， 目 


前 ，CRAN 包 资源 库 包括 了 6379 个 包 (截至 2015 年 2 月 27 日 ) 。 通 过 CRAN 提 供 的 包 ， 用 户 可 以 将 R 的 应 用 扩展 到 机 器 学 习 、 统 计 等 相关 领域 。CRAN 拥 有 全 球 范围 内 的 FTP 及 Web 服 务 器 网 络 ， 提 供 统 一 
的 、 最 新 的 R 的 代码 及 文档 资源 ， 我 们 可 以 选择 最 近 的 CRAN 镜 像 网 站 来 下 载 包 。 


1. 准 备 
从 主机 启动 一 个 R 会 话 。 


2. 操 作 
执行 以 下 操作 完成 安装 和 加 载 R 的 包 : 


1) 导入 已 经 安装 好 的 包 清 单 : 
» library() 
2) 设置 默认 CRAN 镜 像 网 站 : 
> chooseCRANmirror () 


R 将 返回 可 用 的 CRAN 镜 像 网 站 地 址 列表 ， 用 户 可 以 输入 需要 的 镜像 ID， 或 者 输入 0 退出 : 


1) 从 CRAN 安 装 包 ; 以 e1071 包 为 例 : 


> install.packages("e1071") 
2) 从 CRAN 更 新 包 ; 以 e1071 包 为 例 : 


> update.packages ("e1071") 


> library(e1071) 
4) 如 果 和 希望 了 解 包 的 文档 信息 ， 可 以 调用 help 函 数 : 
> help (package -"e1071") 
5) *IERSE f'ÉEEXHPEREABSTEZR SR, tbuI LUSFhelpeRX: 
» help(svm, e1071) 
6) 使 用 快捷 键 “? ”打开 函数 的 帮助 文档 : 
> ?e1071::svm 


7) 如 果 函 数 没有 提供 相应 的 文档 信息 ， 可 以 通过 给 定 关 键 字 方法 来 搜索 提供 的 文档 ， 例 如 ， 我 们 可 以 搜索 与 svm 有 关 的 文档 : 
> help.search("svm") 


8) 也 可 以 使 用 快捷 键 “? ? ”达到 help.search 的 作用 : 


> 


“J 


?svm 
9) 如 果 要 获得 函数 的 参数 信息 ， 可 以 使 用 args 函 数 。 例 如 ， 如 果 我 们 想 了 解 函数 Im 的 参数 信息 : 
> args (lm) 


10) 有 些 包 会 自 带 样 例 和 演示 程序 ， 我 们 可 以 使 用 example 或 者 demo 来 了 解 这 些 样 例 及 演示 程序 。 例 如 ， 如 果 我 们 希望 了 解 Im 包 的 样 例 和 graphics 包 的 演示 程序 ， 可 以 输入 下 列 命令 : 


> example (lm) 


> demo (graphics) 
11) 如 果 希 望 了 解 所 有 可 以 演示 的 程序 ， 可 以 调用 demo 消 数列 出 清单 : 
> demo() 


3. 原 理 


本 节 首 先 介绍 了 如 何 查看 已 经 加 载 的 包 ， 从 CRAN 上 安装 包 ， 以 及 加 载 新 的 包 。 如 果 要 在 安装 之 前 了 解 有 哪些 我 们 可 能 感 兴趣 的 包 ， 可 以 访问 : 
http://cran.r-project.org/web/packages/available packages by name.html 


安装 完毕 后 ， 系 统 会 提供 包 的 文档 信息 。 我 们 可 以 进一步 查看 文档 信息 或 者 与 安装 包 和 函数 相关 的 帮助 信息 ， 也 可 以 通过 包 自 带 的 样 例 及 演示 程序 更 好 地 了 解 它们 的 使 用 方法 。 


4 扩展 


. 除了 从 CRAN 获 得 资源 ， 还 可 以 从 Crantastic 和 R-Forge 等 其 他 R 资 源 库 来 下 载 ，Crantastic 网 站 对 CRAN 上 的 包 提 供 了 相应 的 评级 ，R-Forge 是 一 个 协作 开发 RR 包 的 主要 平台 。 另 外 ， 我 们 还 可 以 从 
Bioconductor 网 站 获得 有 关 基 因数 据 分 析 的 软件 包 。 


. 如 果 读 者 希望 找到 相关 的 函数 和 包 ， 请 访问 http://ctan.f-ptoject.ote/web/views/ 上 的 任务 列表 ， 或 者 在 http:/V/tseek.otfg 上 用 关键 字 进 行 搜索 。 


1.5 BEES 


在 启动 数据 挖掘 任务 之 前 ， 我 们 必须 先 将 数据 导入 R 会 话 中 。 本 节 将 介绍 如 何 将 数据 从 文件 导入 内 存 中 ， 以 及 使 用 R 预 定义 数据 集 的 方法 。 
1. 准 备 

首先 在 本 机 启动 R 会 话 ， 由 于 本 节 的 操作 内 容 将 涉及 文件 |/O， 如 果 用 户 没有 指定 完整 的 输入 输出 路 径 ， 读 写 操作 将 默认 在 当前 工作 路 径 上 进行 。 

我 们 可 以 在 R 会 话 中 输入 getwd () 来 获取 当前 工作 路 径 。 如 果 我 们 希望 切换 当前 工作 路 径 ， 可 以 使 用 setwd (“<path>”) ， 其 中 <path> 为 新 的 工作 路 径 。 
2. 操 作 

执行 以 下 操作 ， 在 R 中 进行 数据 读 写 : 

1) 输入 以 下 命令 ,浏览 R 自 带 数 据 集 : 

> data() 


2) R 将 返回 在 dataset 包 中 所 有 数据 集 的 清单 ， 清 单 包括 数据 集 的 名 称 和 相关 描述 。 


3) 输入 以 下 命令 ， 将 iris 数 据 集 导入 当前 R 会 话 中 : 
> data (iris) 
4) 此 时 ，iris 数 据 集 已 经 导入 R 并 以 数据 框 格式 保存 ， 数 据 框 是 R 存 储 数据 表 的 通用 数据 结构 。 


5) 可 以 调用 class 函 数 了 解 iris 的 数据 类 型 : 


> class(iris) 


[1] "data.frame" 

6) data.frame 控 制 台 将 以 数据 框 的 格式 输出 iris 数 据 集 的 信息 。 

7) 调用 Save 函数 将 一 个 对 象 存 入 文件 中 ， 例 如 ， 调 用 以 下 命令 ， 将 加 载 的 iris 数 据 存 入 myData.RData 文 件 对 象 中 : 
> save(iris, file-"myData.RData") 


8) 使 用 load 遂 数 将 保存 好 的 对 象 重新 导入 R 会 话 中 ， 例 如 ， 调 用 以 下 命令 从 myData.RData 对 象 中 导出 iris 数 据 集 : 


> load("myData.RData") 


9) 除了 处 理 内 置 数据 集 ，R 还 提供 了 将 数据 从 文本 导入 数据 框 的 函数 。 例 如 ，read.table 函 数 能 够 将 给 定 文 本 的 内 容 导入 数据 框 中 : 


> test.data = read.table(header = TRUE, text = " 
*ab 
*12 
+ 3 4 


n) 


10) 我 们 可 以 使 用 row.names 和 col.names 来 确定 数据 集 的 行列 名 称 : 


> test.data = read.table(text = " 
+ 1 2 

+ 3 4", 

+ col.namessc("a","pb"), 


+ row.names = c("first","second")) 
11) 浏览 test.data 变 量 的 类 别 信息 : 
> class(test.data) 
[1] "data.frame" 
12) 从 class 函 数 的 输出 结果 可 知 test.data 变 量 包 含 了 一 个 数据 框 。 
13) 除了 使 用 read.table 消 数 导 入 数据 ， 我 们 还 可 以 使 用 write.table 遂 数 将 数据 导出 到 文本 文件 : 
> write.table(test.data, file = "test.txt" , sep = " ") 


14) 函数 write.table 能 够 将 test.data 的 内 容 输出 到 test.txt (输出 路 径 可 通过 getwd () 获得 ) ， 用 分 隔 符 作为 空格 。 


15) 与 函数 write.table 类 似 ， 函 数 write.csv 也 可 以 实现 数据 到 文件 的 导出 功能 ， 但 是 write.csv 用 逗号 作为 分 隔 符 : 
> write.csv(test.data, file = "test.csv") 


16) 利用 read.csv 函 数 ， 可 以 将 csv 文 件 导 入 为 数据 框 。 在 最 后 一 个 样 例 中 ， 我 们 规定 了 test.csv 文 件 的 数据 框 的 行列 名 称 ， 因 此 指定 header 参 数 为 TRUE， 并 用 函数 规定 第 一 列 是 行 的 名 称 ， 可 以 确保 导 
入 数据 的 时 候 将 header 和 第 一 行 也 当做 数据 值 处 理 。 


> csv.data = read.csv("test.csv", header = TRUE, row.names-1) 
» head(csv.data) 

a b 

L2 

3 4 


N H 


3. 原 理 


通常 ， 数 据 采 集 的 结果 包含 了 多 种 文件 和 数据 格式 ， 为 了 能 够 实现 数据 文件 和 Rdata 的 转换 ，R 提 供 了 多 种 内 置 永 数 ， 包 括 save、load、read.csv、read.table、write.csv 和 write.table 等 。 


iris 数 据 集 是 机 器 学 习 领 域 最 有 名 、 使 用 率 最 高 的 数据 集 。 这 里 ， 我 们 以 inis 数 据 集 为 例 ， 展 示 了 调用 save 和 load 函 数 保存 和 导入 RData 的 方法 。 另 外 ， 我 们 还 展示 了 使 用 read.table、write.table、 
read.csv 和 write.csv 这 几 个 函数 实现 从 文件 到 数据 框 转换 的 过 程 。 学 会 掌握 R 的 MO 函数 非常 重要 ， 因 为 大 多 数 时 候 我 们 都 需要 使 用 外 部 数据 源 ， 需 要 借助 这 些 冰 数 将 数据 装载 到 R 的 会 话 中 。 


4. 扩 展 
对 于 load、read.table 和 read.csv 函 数 ， 它 们 也 可 以 将 输入 的 URL 作 为 要 处 理 的 数据 源 (可 以 调用 “? url” 获 得 更 多 相关 帮助 ) 。 
在 某 些 情况 下 ， 我 们 也 可 能 需要 处 理 Excel 类 型 的 文件 而 不 是 文本 文件 ，WriteXLS 包 支持 将 对 象 导出 为 Excel 文 件 ， 只 需要 在 第 一 个 参数 中 指明 给 定 的 变量 ， 在 第 二 个 参数 中 指明 导出 的 文件 名 : 


1) 安装 WriteXLS 包 : 


> install.packages("WriteXLS") 


2) 导入 WriteXLS 包 : 


> library("WriteXLS") 
3) 调用 WriteXLS 函 数 将 数据 框架 导出 到 名 为 iris.xls 的 文件 中 : 


> WriteXLS("iris", ExcelFileName-"iris.xls") 


1.6 ”使 用 R 实 现 数 据 操作 


本 节 将 探讨 如 何 使 用 内 置 R 函 数 来 操作 数据 。 由 于 数据 处 理 是 整个 数据 分 析 过 程 中 最 为 耗 时 的 部 分 ， 所 以 我 们 非常 有 必要 了 解 这 些 函 数 的 使 用 方法 。 


1. 准 备 

读者 应 确保 完成 前 述 章节 的 操作 ， 在 本 机 安装 好 R。 
2. 操 作 

执行 以 下 操作 ， 用 R 进 行 数据 操作 : 

方 括 号 中 间 为 数据 子 集 : 


1) 将 iris 数 据 集 导 入 R 会 话 中 : 
> data (iris) 
2) 选择 数据 ， 我 们 可 以 使 用 方 括号 来 指明 数据 集 的 索引 ， 第 一 项 为 行 ， 第 二 项 为 列 : 


> iris[1,"Sepal.Length"] 
EL 8.1 


3) 使 用 c () 选择 多 列 : 
> Sepal.iris = iris[, c("Sepal.Length", "Sepal.Width")] 


4) 使 用 str () 来 展示 Sepal.iris 内 部 结构 : 


> str(Sepal.iris) 

'data.frame': 150 obs. of 2 variables: 
$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... 
> Hapal.NidEh s mum 3.5 3 3.2 1.1. 31.56 3.9 3.4 3.4 2.9 3.1 .. 


5) 根据 指定 行 索引 获取 数据 集 的 子 集 ， 我 们 可 以 在 方 括号 的 第 一 项 中 指明 索引 范围 。 如 下 样 例 中 ， 我 们 将 取出 Sepal.Length 和 sepal.Width 两 列 的 前 五 项 : 


> Five.Sepal.iris = iris[1:5, c("Sepal.Length", "Sepal.Width")] 
> str(Five.Sepal.iris) 

'data.frame':5 obs. of 2 variables: 

$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 

5 SepEl.WI1dtbh : mnm 3.5 3 3.2 3.1 3.6 


6) 可 以 设置 数据 的 筛选 条 件 。 例 如 ， 挑 选 仅 包 含 setosa 类 型 的 数据 ， 返 回 数据 全 部 5 列 信息 。 样 例 中 ， 方 括号 内 第 一 项 指明 了 筛选 规则 ， 第 二 项 指明 了 返回 的 列 的 范围 : 


> setosa.data = iris[iris$Species--"setosa",1:5] 
> str(setosa.data) 
'data.frame': 50 obs. of 5 variables: 
$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... 
NE OS GE 325 3 322 GE XA 2.9 3043.4 2.9 3942 2x4 
S Petal.Length: num Teg 1.4 1.3 1.5 1.4 1.7 Tia 1.5 I.4 1.5 i... 
S Patal.Mi1dEb s mm 0:2 0:2 0:2 0.2 0:2 0,4 D.3 UD. 2 0:2 Ul i. 
$ 


Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 
LUE XOLIXIL XE 


7) 相应 地 ， 调 用 which 函 数 返 回 符合 条 件 的 索引 值 ， 如 下 样 例 所 示 ， 返 回 iris 数 据 集中 是 setosa 类 型 的 数据 索引 值 : 
> which(iris$Species--"setosa") 
I1] 1 2 3 4 5 6 7 B 9 10 11 12 13 14 15 16 17 18 


119] 19 20 21 224 43 424 25 26 27 2B 29 30 3L 32 33 34 35 36 
[37] 37 38 39 40 41 42 43 44 45 46 47 48 49 50 


8) 操作 返回 的 索引 又 可 以 被 作为 挑选 包含 setosa 类 型 的 iris 数 据 的 依据 ， 如 下 样 例 所 示 ， 返 回 类 型 为 setosa 的 数据 对 象 的 全 部 5 列 信息 : 


> setosa.data = iris[which(iris$Species--"setosa"),1:5] 
> str(setosa.data) 
'data.frame':50 obs. of 5 variables: 
$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... 
s SagAL.NIJGER 3$ AG 3,5 3 3:2 3.1.3.5 3.9 J4 3.4. 2:9 J.I ssi 
D Ratal.Lenugth: nm 11.4 124 1.3 1.5 L.4 1:7 1.4 1.5 1.4 1.5 sss 
s Dabil Wath S uu 0,2 WB D.2:0.2 0,2 0.4 D.-3 50.2 0:2 DL vis 
$ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 
LG EZOLASEG OG s 
使 用 subset 遂 数 获取 数据 集 的 子 集 : 
1) 除了 使 用 方 括号 ，R 还 提供 了 函数 subset， 支 持 用 户 使 用 逻辑 表达 式 来 取得 数据 框架 的 子 集 。 


2) 首先 ， 在 inis 数 据 集中 选择 子 集 类 别 、 花 苯 长 度 、 花 莹 宽度 构成 的 子 集 。 为 了 在 inis 数 据 集中 挑选 出 花 苯 长 度 、 人 花 苯 宽 度 信息 ， 我 们 应 该 在 select 参 数 中 指明 投影 的 列 : 


> Sepal.data = subset(iris, select-zc("Sepal.Length", "Sepal. 
Widtnh")) 


» str(Sepal.data) 
'data.frame': 150 obs. of 2 variables: 
$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... 
S Sma $i num 3.5 3 3.2 3.1 3.58 3.9 3.4.3.4 2.9 3.L ..— 


从 结果 可 知 ，Sepal.data 数 据 集 包 含 了 150 个 Sepal.Lenght 和 Sepal.Width 的 对 象 。 


1) 另 一 方面 ， 我 们 可 以 使 用 subset 参 数 获得 仅 包含 setosa 类 型 的 数据 。 在 subset 函 数 的 第 二 个 参数 中 指明 筛选 依据 : 


> setosa.data = subset(iris, Species =="setosa") 
> str(setosa.data) 
'data.frame': 50 obs. of 5 variables: 
$ gapal.bength: num 5.1 4.9 4.7 4.6 5 5.4 4.5 5 4.4 4.9 ... 
BIBNDEILONIHER S nu AEG XE NEG. m4 5.41.9 3L wo 
P PaEal.Lhsugth: num 2.4 1.4 1,3 1.5 Ta 1.74 1.4 L5 1.4 1.5 asu 
S PECL NIJER 2 num 0.2 D. 0.2 D.2 8.2 0.4 0.3 U.2 U.2 BD. i45: 
$ 


Species : Factor w/ 3 levels "setosa","versicolor",..: 11 
LA LX OE AE X 5E ll. osx 


2) 在 大 多 数 情 况 下 ， 我 们 需要 运用 条 件 的 并 和 交 运 算 来 进一步 筛选 数据 ，OR 和 AND 操 作 可 以 被 应 用 在 这 里 。 例 如 ， 如 果 我 们 希望 挑选 Petal.Width > =0.2 和 Petal.Length<=1.4 的 数据 : 


> example.data- subset(iris, Petal.Length «-1.4 & Petal.Width >= 
0.2, select-Species ) 


» str(example.data) 


'data.frame': 21 obs. of 1 variable: 
$ Species: Factor w/ 3 levels "setosa","versicolor",..: 11111 
EUG UG € ous 


合并 数据 : 数据 合并 是 将 两 个 具有 相同 列 或 行 的 数据 框 合并 为 一 个 。 在 下 面 这 个 样 例 中 ， 我 们 将 展示 如 何 将 数据 框 flower.type 中 Species 列 为 “setosa”，Flower 列 为 “iris” 的 子 集 和 iris 数 据 集 的 拥有 
相同 行 名 称 的 前 三 行 合 并 在 一 起 ， 合 并 后 列 名 为 Species: 
> flower.type = data.frame(Species = "setosa", Flower = "iris") 
> merge(flower.type, iris[1:3,], by -"Species") 
Species Flower Sepal.Length Sepal.Width Petal.Length Petal.Width 
l setosa iris Re d 2.5 1.4 0.2 
2 setosa iris 4.9 3.0 1.4 D.2 
3 setosa iris A:T e La 0.2 


数据 排序 : 函数 order 可 以 返回 指定 列 进行 数据 排序 后 的 数据 框 。 下 面 样 例 是 依据 花 划 长度 (从 大 到 小 ) 排序 的 inis 数 据 集 的 前 6 条 记录 的 结果 : 


> head(iris[order(iris$Sepal.Length, decreasing = TRUE),]1) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 


132 7.9 3.8 6.4 2.0 virginica 
118 y PN S.B 6.7 2.2 virginica 
119 qu 2.5 6.9 2.3 virginica 
L23 Tuy 2Z.H B 2.0 virginica 
136 T 3.0 B 2.3 WIIGIDSCH 
106 7.6 3.0 6.6 2.1 virginica 


3. 原 理 


在 启动 数据 分 析 之 前 ， 将 采集 到 的 数据 组 织 成 一 个 结构 化 的 形式 是 非常 重要 。 我 们 使 用 R 的 数据 框 就 能 简单 地 实现 数据 集 的 分 割 、 合 并 及 排序 。 本 节 首先 介绍 了 两 种 获取 数据 子 集 的 方法 : 一 种 是 使 用 方 
括号 ,一 种 是 使 用 subset 遂 数 。 我 们 还 可 以 通过 挑选 指定 列 以 及 设 定 筛选 规则 来 获取 数据 子 集 。 本 节 还 介绍 了 利用 函数 merge 来 合并 数据 框 。 最 后 ， 我 们 使 用 函数 order 实 现 了 数据 排序 。 


4. 扩 展 


函数 sub 和 gsub 支 持 使 用 正则 表达 式 对 字符 串 的 处 理 。 例 如 ， 使 用 遂 数 sub 和 gsub 分 别 蔡 换 字符 串 中 和 新 字符 匹配 的 第 一 个 和 所 有 的 字符 : 


» sub("e", "q", names(iris)) 
[1] "Sqpal.Length" "Sqpal.Width"  "Pqtal.Length" "Pqtal.Width"  "Spqcies" 
» gsub("e", "q", names(iris)) 


[1] "Sqpal.Lqngth" "Sqpal.Width"  "Pqtal.Lqngth" "Pqtal.Width"  "Spqciqs" 


1.4 ”应 用 简单 统计 


R 提 供 了 大 量 的 统计 函数 ， 支 持 用 户 对 数据 进行 统计 ， 生 成 频率 表 和 列 联 表 ， 获 得 数据 间 关 联 关 系 以 及 得 到 统计 推断 。 本 节 将 介绍 可 用 于 数据 分 析 的 基本 统计 函数 。 
1. 准 备 

读者 需 确保 完成 前 述 章节 的 操作 ， 并 在 本 机 上 安装 了 R。 
2. 操 作 

执行 以 下 操作 在 数据 集 上 完成 简单 统计 : 

1) 将 iris 数 据 集 导入 R 会 话 中 : 


> data(iris) 


2) 获取 数据 格式 : 
> class(iris) 


[1] "data.frame" 


3) iris 数 据 框 包含 4 个 数值 型 属性 petal length、petal width, sepal width 和 sepal length。 我 们 可 以 对 数值 型 数据 进行 描述 性 统计 分 析 ， 例 如 mean、sd、var、min、max、median、range 以 及 
quantile。 以 上 这 些 函数 均 可 用 于 数据 集中 的 4 个 属性 : 


> mean(iris$Sepal.Length) 
[1] 5.843333 
» sd(iris$Sepal.Length) 
[1] 0.8280661 
> var(iris$Sepal.Length) 
[1] 0.6856935 
> min(iris$Sepal.Length) 
[1] 4.3 
> max(iris$Sepal.Length) 
EI 7 
» median(iris$Sepal.Length) 
Ig SB 
» range(iris$Sepal.Length) 
LH] 4.3 7.9 
> quantile(iris$Sepal.Length) 
0% 25% 50% 75% 100% 
4.3 B.L S-S 5.4 7.9 
4) 上 述 样 例 展示 了 如 何 对 单 值 变 量 进行 描述 性 统计 分 析 ， 如 果 要 对 数据 框 的 每 个 数值 型 属性 进行 汇总 统计 ， 我 们 可 以 使 用 sapply 函 数 。 例 如 ， 和 忽略 缺失 值 (na.rm=TRUE) ， 求 iris 数 据 框 前 4 个 属性 的 
平均 值 : 
> sapply(iris[1:4], mean, na.rm=TRUE) 
Sepal.Length Sepal.Width Petal.Length  Petal.Width 
5.843333 3.057333 3.758000 L1989333 


5) 除了 使 用 sapply 函 数 对 给 定 属性 进行 摘 述 性 统计 分 析 ，R 还 提供 summary 函 数 ， 得 到 描述 性 统计 的 完整 结果 在 以 下 样 例 中 ，summary 函 数 返 回 了 iris 数 据 集中 数值 属性 的 平均 值 、 中 值 、1/4 分 位 
数 、3/4 分 位 数 、 最 小 值 以 及 最 大 值 : 


> summary (iris) 


Sepal.Length Sepal .Width Petal.Length Petal .Width 
Species 

Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 
setosa :50 


lst Qu.:5.100 1st Qu.:2.800 lst Qu.:1.600 lst Qu.:0.300 
versicolor:50 


Median :5.800 Median :23.000 Median :4.350 Median :1.300 
virginica :50 


Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199 
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500 


6) 以 上 样 例 展示 了 对 单 值 属 性 进行 摘 述 性 统计 的 输出 过 程 。R 还 提供 了 帮助 用 户 对 变量 间 天 联 进行 分 析 的 函数 。 以 下 样 例 将 对 iris 数 据 集中 每 一 个 属性 对 的 关联 性 进行 计算 ， 生 成 4x4 的 和 矩阵 : 


» GOEX(irlWN[,1:4]) 
Sepal.Length Sepal.Width Petal.Length Petal.Width 
Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411 


Sepal.Width -0.1175698 1.0000000 -0.4284401  -0.3661259 
Petal.Length 0.8717538  Á -0.4284401 1.0000000 0.9628654 
Petal.Width 0.8179411  -0.3661259 0.9628654 1.0000000 


7) R 提 供 了 函数 来 计算 iris 数 据 集 每 一 个 属性 对 的 协 方差 系数 : 


» coviiris[,1:41) 
Sepal.Length Sepal.Width Petal.Length Petal.Width 
Sepal.Length 0.6856935  -0.0424340 1.2743154 0.5162707 


Sepal.Width -0.0424340 0.1899794 -0.3296564 3 -0.1216394 
Petal.Length 1.2743154 -0.3296564 3.1162779 1.2956094 
Petal.Width 0.5162707  À-0.1216394 1.2956094 0.5810063 


8) 统计 检验 可 用 来 评估 结果 的 显著 性 ; 我 们 在 以 下 样 例 中 将 展示 使 用 t 检 验 来 分 析 两 个 样本 之 间 的 统计 差异 ， 具 体 任务 是 用 t 检 验 来 判断 setosa 或 versicolor 两 类 营 尾 花花 莹 宽度 的 差别 。 如 果 我 们 获得 
的 p 值 小 于 0.5， 说 明 这 两 类 葛 尾 花 的 花 莹 宽度 差别 非常 明显 : 


> t.test(iris$Petal.Width[iris$Species--"setosa"], 


一 iris$Petal.Width[iris$Species--"versicolor"]) 


Welch Two Sample t-test 
data:  iris$Petal.Width[iris$Species == "setosa"] and iris$Petal. 
Width[iris$Species -- "versicolor"] 


t = -34.0803, df = 74.755, p-value < 2.2e-16 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-1.143133 -1.016867 
sample estimates: 
mean of x mean of y 


0.246 1.326 


9) 同样 ， 我 们 也 可 以 对 某 类 营 尾 伦 的 花 苯 宽度 与 化 苯 长 度 的 天 系 进行 关联 检验 ， 并 得 到 两 个 变量 之 间 的 相关 度 评 分 ， 变 量 间 正 相关 越 强 ， 评 分 越 接近 1; 反之 ， 两 者 之 间 负 相关 性 越 强 ， 评 分 越 接近 - 


> cor.test(iris$Sepal.Length, iris$Sepal.Width) 


Pearson's product-moment correlation 


data:  iris$Sepal.Length and iris$Sepal.Width 
t = -1.4403, df = 148, p-value = 0.1519 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.27269325 0.04351158 
sample estimates: 
cor 


-0.1175698 


3. 原 理 


R 有 许多 内 置 的 统计 函数 ， 我 们 可 以 利用 这 些 函 数 对 单 值 变量 进行 描述 性 统计 。 本 节 首 先 介 绍 了 如 何 对 单 值 变量 进行 分 析 ， 包 括 mean、sd、var、min、max、median、range 和 quantile 函 数 的 使 
用 。 另 外 ， 我 们 还 可 以 使 用 sapply 函 数 对 所 有 4 个 数值 属性 进行 统计 分 析 。 我 们 也 可 以 使 用 相关 系数 和 协 方差 得 到 多 变量 之 间 的 关系 。 最 后 ， 我 们 展示 如 何 通 过 统计 检验 来 判断 两 个 给 定 样本 之 间 的 统计 差 
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4. 扩 展 
如 果 我 们 需要 计算 不 同 组 数据 的 聚合 汇总 统计 ， 可 以 使 用 aggregate 和 reshape 函 数 来 计算 数据 子 集 的 汇总 统计 : 


1) 使 用 aggregate 冰 数 计算 不 同类 别 的 葛 尾 花 属性 组 合 的 平均 值 : 


> aggregate(x-iris[,1:4],by-list(iris$Species),FUN-zmean) 


2) 使 用 reshape 计 算 不 同类 别 的 营 尾 花 属性 组 合 的 平均 值 : 


> library (reshape) 

> iris.melt <- melt(iris,id-'Species') 

> cast(Species~variable,data=iris.melt,mean, 
subset-Species %in% c('setosa','versicolor'), 


margins-'grand row') 


mBZüxaggregateflireshapee4ZRBSPJz, B4 "? reshape" ay "? aggregate” 人 得 到 的 帮助 文档 。 


1.8 ”数据 可 视 化 


可 视 化 是 一 种 强大 的 图 形 化 信息 交互 方法 ， 它 使 得 数据 理解 变 得 非常 简单 。 本 节 将 介绍 一 些 基 本 的 绘图 函数 ， 并 展示 可 视 化 对 数据 挖掘 的 意义 。 


读者 须 确 保 完成 前 述 章节 要 求 的 操作 ， 在 本 机 安装 好 R。 
2. 操 作 
执行 以 下 操作 完成 数据 集 的 可 视 化 : 
1) 将 iris 数 据 集 导 入 R 会 话 中 : 
> data (iris) 
2) 使 用 table 命 令 计算 iris 数 据 集中 各 类 别 的 频数 : 
> table.iris = table(iris$Species) 


> table.iris 


setosa versicolor  virginica 


50 50 50 
3) Mice RILUSH, ST REESE SS EXEC Z SES S RSERES 1/3,. 3e] JT EAIBI— 1 5) RR RRR iri in Se rA I8] 2581 85 FEXCRI NE: 


» pie(table.iris) 


versicolor - 





4) 以 下 样 例 展示 了 人 花 莹 长 度 分 布 的 直方 图 ， 其 中 ，x 轴 为 葛 尾 花 的 类 别 ，y 轴 为 频率 : 


> hist(iris$Sepal.Length) 


Histogram of iris$Sepal.Length 
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Frequency 


Ce 


iris$Sepal.Length 





花车 长 度 直 方 图 
5) 在 直方 图 中 ，x 轴 为 花 莹 长 度 ，y 轴 为 不 同 花 莹 长 度 的 数目 ， 从 图 中 可 知 ， 对 于 大 多 数 营 尾 花 ， 其 花 莹 长 度 为 4~8 厘 米 。 


6) 盒 图， 也 称 为 箱 线 图 。 它 人 允许 我 们 将 很 多 信息 放 在 一 个 简单 的 图 里 。 在 盒 图 中 ， 线 段 表示 样本 的 中 位 数 ， 和 矩形 代表 了 数据 的 1/4 和 3/4 分 位 数 ， 矩 形 两 端 虚线 代表 了 数据 值 范围 : 


> boxplot(Petal.Width ~ Species, data = iris) 


versicolor virginica 





7) 上 图 非常 清晰 地 展示 了 setosa 类 莺 尾 花 的 花 莹 宽度 的 中 值 和 上 界 都 比 versicolor 和 virginica 两 个 类 别 的 芒 尾 花 要 小 很 多 。 因 此 ， 花 莹 宽度 可 以 作为 区 分 营 尾 花 物 种 的 辅助 属性 。 


8) 散 点 图 可 以 被 应 用 于 在 一 个 图 中 比较 分 析 两 个 变量 关联 的 情景 。 如 下 样 例 用 有 颜色 的 点 分 别 展示 了 根据 所 属 类 别 的 不 同 其 伦 苯 长度 与 宽度 的 分 布 情况 : 


> plot(x-iris$Petal.Length, y-iris$Petal.Width, col-iris$Species) 
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iris$Petal Length 





花 苯 长 度 与 宽度 的 散 点 图 


9) 上 图 绘制 了 花 营 长 度 及 宽度 的 散 点 图 。 由 于 iris 数 据 集 有 4 个 属性 ， 因 此 需要 6 次 操作 才能 处 理 完 所 有 的 组 合 。 好 在 R 提 供 了 一 个 pairs 函 数 ， 可 以 在 一 个 图 中 绘制 出 所 有 的 子 图 : 


> pairs(iris[1:4], main - "Edgar Anderson's Iris Data", pch = 21, 
bg = c("red", "green3", "blue") [unclass(iris$Species)]) 


Edgar Anderson's Iris Data 
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sepal.Length 





ifis 数 据 集 的 成 组 散 点 图 
3. 原 理 


R 提 供 了 许多 内 置 的 绘图 函数 ， 用 户 可 以 绘制 不 同 的 图 形 展现 数据 。 本 节 通 过 饼 图 可 以 展示 数据 类 别 的 分 布 ， 如 果 饼 图 尺 斗 均匀 ， 说 明 每 个 类 别 的 分 布 是 均衡 的 。 直 方 图 展示 了 不 同 花 苯 长 度 的 频数 分 
布 。 我 们 还 可 以 利用 盒 图 来 表达 大 量 的 描述 性 统计 ， 例 如 我 们 可 以 通过 花 莹 宽度 来 区 分 不 同类 别 的 葛 尾 花 。 最后， 我 们 介绍 了 散 点 图 ， 利 用 散 点 图 我 们 可 以 在 一 个 图 中 表示 许多 变量 的 信息 。 我 们 可 以 使 用 
pairs 函 数 快 速 地 表达 出 包括 iris 数 据 集中 所 有 变量 组 合 的 散 点 图 。 


4. 扩 展 


R 还 提供 了 另 一 套 名 为 ggplot2 的 绘图 系统 ， 该 系统 是 基于 Leland Wilkinson 提 出 的 图 形 语 法 思想 实现 的 。 它 通过 高 度 抽 象 方式 允许 用 户 随意 增加 、 移 除 或 替换 图 形 中 的 元 素 ， 但 是 它 对 图 形 抽象 结果 的 
层次 比 lattice 图 像 要 慢 。 如 果 读 者 对 ggplot 的 内 容 感 兴趣 ， 可 以 参考 网 站 : http://ggplot2.org/。 


1.9 ”获取 用 于 机 器 学 习 的 数据 集 
尽管 R 有 内 置 的 数据 集 ， 但 样本 的 规模 以 及 应 用 类 型 都 比较 有 限 。 除 了 通过 仿真 得 到 数据 ， 我 们 还 可 以 从 外 部 数据 资源 库 获 得 数据 ， 包 括 了 商用 和 真实 数据 集 的 UCI 机 器 学 习 库 就 是 这 样 一 个 非常 有 名 的 
数据 资源 库 。 本 节 将 介绍 如 何 从 UCI 机 器 学 习 库 获得 样本 数据 集 。 
1. 准 备 
读者 须 确保 完成 前 述 章节 的 操作 ， 在 本 机 安装 好 R。 
2. 操 作 
执行 以 下 操作 ， 完 成 从 机 器 学 习 库 获取 数据 : 


1) 访问 UCI 机 器 学 习 资 源 库 : http://archive.ics.uci.edu/ml/。 
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UCI 数 据 资 源 库 


2) 单 击 View All Data Sets， 我 们 将 找到 包括 : 名 称 、 数 据 类 型 、 默 认 适 合 的 任务 、 属 性 类 型 、 实 例 个 数 、 属 性 个 数 、 添 加 年 份 。 
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3) 使 用 Ctrl+F 搜 索 |ris: 
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5) 单 击 Data Folder， 将 显示 包含 iris 数 据 集 的 路 径 信息 


Index of /ml/machine-learning-databases/iris 


ed Pareut Directory a 
P) Index 03-Dec-1996 04:01 104 
(P) bezdeklrisdata 14-Dec-1999 12:12 4.4K 
(P) iii data 08-Mar-1903 16:27 4.4K 
A) iris.names 11-Jul-2000 21:30 2.9K 


Apache/?. 7.15 (CenrOS) Server ar archive.1cs uci. edu Port 80 





6) 我 们 可 以 下 载 iris.data 或 者 使 用 read.csv 孙 数 读 取 数 据 集 : 


> iris.data = read.csv(url("http://archive.ics.uci.edu/ml/machine- 
learning-databases/iris/iris.data"), header = FALSE,  col.names = 
c("Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width", 
"Species")) 
» head(iris.data) 

Sepal.Length Sepal.Width Petal.Length Petal.Width Species 


id P OS du 1.4 0.2 Iris-setosa 
2 4.9 3.D 1.4 0.2 Iris-setosa 
3 4.7 Ju Los 0.2 Iris-setosa 
4 4.6 < d (EL 0.2 Iris-setosa 
5 DA CNN 1.4 0.2 Iris-setosa 
6 5.4 cp Las 0.4 Iris-setosa 


3. 原 理 


在 进行 数据 分 析 之 前 ， 我 们 要 完成 的 一 项 重要 工作 就 是 数据 采集 。 不 过 ， 要 为 更 加 深入 的 挖掘 和 分 析 任 务 准 备 好 一 个 合适 的 数据 集 并 不 是 一 件 容 易 的 事情 。 因 此 ， 我 们 可 以 使 用 UCI 资 源 库 中 准备 好 的 
数据 集 作 为 我 们 的 数据 源 。 本 节 首 先 访 问 了 UCI 数 据 资源 库 ， 并 以 iris 数 据 集 为 样 例 。 我 们 可 以 在 浏览 器 中 通过 查找 函数 (Ctrl+F) 来 找到 iris 数 据 集 ， 并 键入 文件 夹 路 径 。 最 后 ， 我 们 可 以 下 载 数据 集 ， 然 后 
fsFBRRBSI/O£RZAread.csviris£&dg ESA RAAE, 


4 扩展 


KDnuggets (http://www.kdnuggets.com/datasets/index.html) 提供 了 数据 集资 源 列 表 ， 用 于 数据 挖掘 和 数据 科学 研究 。 我 们 可 以 查找 清单 找到 满足 自己 需要 的 数据 集 。 


第 2 章 ”挖掘 RMS Titanic 数 据 集 


2.1 简介 


数据 挖掘 可 以 帮助 用 户 专注 于 信息 收集 ， 并 基于 收集 的 信息 形成 正确 的 分 析 结 果 。 另 外 ， 在 完成 数据 的 清洗 、 分 析 、 建 模 以 及 评估 步骤 后 ， 用 户 能 够 从 其 关注 的 数据 中 获得 深入 并 且 有 价值 的 信息 。 
一 个 实际 的 数据 挖掘 项 目 将 包含 以 下 六 个 阶段 : 

1) 提出 正确 的 问题 ; 

2) 数据 采集 ; 

3) 数据 清洗 ; 

4) 基础 数据 分 析 ; 


5) 高 级 数据 分 析 ; 


— 


6) 模型 评估 。 
这 六 个 步骤 具体 工作 包括 : 


1) 提出 正确 的 问题 : 当 用 户 提出 某 个 问题 时 ， 例 如 “ 当 数 据 挖 掘 完成 后 我 可 以 得 到 怎样 的 预期 结果 ?”” 或 者 “通过 数据 挖掘 我 能 够 得 到 哪些 信息 ?”” ， 他 们 将 得 到 不 同 的 答案 。 因 此 ， 首 先 提出 正确 的 
问题 是 必要 的 ， 因 为 问题 本 身 确 定 了 挖掘 的 对 象 和 目标 。 


2) 数据 采集 : 一 旦 确定 了 挖 握 目 标 ， 用 户 就 可 以 根据 挖 扬 目 标 从 数据 源 中 收集 或 提取 相关 数据 。 大 多 数 情况 下 ， 我 们 可 以 借助 文件 的 /0 函数 、JDBC/ODBC、 网 络 胞 虫 等 方式 从 不 同 的 系统 ， 例 如 文 
件 、 数 据 库 或 Internet 采 集 数据 ， 这 些 数 据 被 称 为 原始 数据 。 由 于 原始 数据 往往 存在 格式 的 无 序 性 和 差异 性 问题 ， 因 而 无 法 直接 利用 分 析 工 具 或 者 可 视 化 程序 来 处 理 它们 。 


3) 数据 清洗 : 接 下 来 的 任务 是 数据 清洗 (数据 转化 ) ， 通 过 这 一 步 ， 我 们 可 以 将 原始 数据 转换 为 更 易于 分 析 和 理解 的 数据 格式 。 数 据 清洗 包括 很 多 步骤 ， 比 方 说 ， 数 据 解 析 、 排 序 、 合 并、 筛选 、 缺 失 
值 播 补 以 及 其 他 各 种 数据 转换 和 数据 组 织 过 程 ， 最 终 得 到 一 个 适合 分 析 的 数据 结构 。 然 后 ， 这 些 处 理 好 的 数据 可 以 被 进一步 地 用 于 数据 聚集 、 分 析 及 可 视 化 。 


4) 基础 数据 分 析 : 经 过 数据 清洗 ， 用 户 可 以 进一步 进行 数据 的 分 析 ， 例 如 ， 执 行 最 基本 的 数据 分 析 即 探索 性 数据 分 析 ， 包 括 计算 数据 的 汇总 信息 、 采 用 基本 的 统计 、 聚 类 以 及 可 视 化 方法 来 帮助 用 户 更 
好 地 理解 数据 的 特征 ， 我 们 还 可 以 通过 图 形 展现 来 发 现 数据 的 主要 性 质 、 变 化 趋势 以 及 孤立 点 等 信息 。 


5) 高 级 数据 分 析 : 至 此 ， 我 们 已 经 可 以 通过 描述 性 统计 得 到 有 关 数 据 特征 的 一 个 大 概 的 印象 。 但 如 果 我 们 希望 能 从 中 得 出 一 些 推论 ， 让 用 户 以 此 为 依据 根据 输入 参数 预测 数据 特征 ， 就 必须 再 借助 机 器 
学 习 的 方法 基于 训练 数据 生成 预测 模型 ， 再 利用 预测 模型 根据 给 定 输入 预测 输出 。 

6) 模型 评估 : 最 后 ， 为 了 评估 生成 的 模型 是 否 在 给 定 问题 领域 能 够 得 到 最 优 的 效果 ， 我 们 还 必须 再 完成 模型 的 筛选 。 该 任务 通常 包含 多 个 
应 该 记 住 最 简单 的 模型 往往 能 取得 最 好 的 预测 及 挖掘 效果 ， 复 杂 模 型 却 常常 会 带 来 过 度 适 应 的 问题 。 


又 ， 包 括 数据 预 处 理 、 参 数 调 做、 机 器 学 习 算 法 切换 。 我 们 


SE 


在 下 列 样 例 中 ， 我 们 将 根据 泰坦 尼克 号 获救 乘客 的 数据 进行 一 个 简单 的 数据 挖掘 ， 具 体内 容 包括 从 在 线 数据 源 Kaggle 获 取 数 据 ， 完 成 数据 清洗 ， 执 行 基本 的 数据 分 析 判 断 哪些 属性 对 逃生 概率 预测 有 重 


影响 ， 再 执行 深度 数据 挖掘 ， 构 建 分 类 算法 ， 根 据 给 定 输入 数据 预测 逃生 概率 。 最 后 ， 进 行 模型 评 佑 并 得 到 预测 模型 。 


"Bax ”挖掘 RMS Titanic 数 据 集 


数据 挖掘 可 以 帮助 用 户 专注 于 信息 收集 ， 并 基于 收集 的 信息 形成 正确 的 分 析 结 果 。 另 外 ， 在 完成 数据 的 清洗 、 分 析 、 建 模 以 及 评估 步骤 后 ， 用 户 能 够 从 其 关注 的 数据 中 获得 深入 并 且 有 价值 的 信息 。 
一 个 实际 的 数据 挖掘 项 目 将 包含 以 下 六 个 阶段 : 

1) 提出 正确 的 问题 ; 

2) 数据 采集 ; 

3) 数据 清洗 ; 

4) 基础 数据 分 析 ; 


5) 高 级 数据 分 析 ; 


xo 


6) 模型 评估 。 
这 六 个 步骤 具体 工作 包括 : 


1) 提出 正确 的 问题 : 当 用 户 提出 某 个 问题 时 ， 例 如 “ 当 数 据 挖 掘 完成 后 我 可 以 得 到 怎样 的 预期 结果 ?”” 或 者 “通过 数据 挖掘 我 能 够 得 到 哪些 信息 ?” ， 他 们 将 得 到 不 同 的 答案 。 因 此 ， 首 先 提出 正确 的 
问题 是 必要 的 ， 因 为 问题 本 身 确 定 了 挖掘 的 对 象 和 目标 。 


2) 数据 采集 : 一 旦 确定 了 挖掘 目标 ， 用 户 就 可 以 根据 挖掘 目标 从 数据 源 中 收集 或 提取 相关 数据 。 大 多 数 情况 下 ， 我 们 可 以 借助 文件 的 MO 国 数 、JDBC/ODBC、 网 络 爬 虫 等 方式 从 不 同 的 系统 ， 例 如 文 
件 、 数 据 库 或 Internet 采 集 数据 ， 这 些 数 据 被 称 为 原始 数据 。 由 于 原始 数据 往往 存在 格式 的 无 序 性 和 差异 性 问题 ， 因 而 无 法 直接 利用 分 析 工 具 或 者 可 视 化 程序 来 处 理 它们 。 


3) 数据 清洗 : 接 下 来 的 任务 是 数据 清洗 (数据 转化 ) ， 通 过 这 一 步 ， 我 们 可 以 将 原始 数据 转换 为 更 易于 分 析 和 理解 的 数据 格式 。 数 据 清洗 包括 很 多 步骤 ， 比 方 说 ， 数 据 和 解析、 排序、 合并、 筛选 、 缺 失 
值 揪 补 以 及 其 他 各 种 数据 转换 和 数据 组 织 过 程 ， 最 终 得 到 一 个 适合 分 析 的 数据 结构 。 然 后 ， 这 些 处 理 好 的 数据 可 以 被 进一步 地 用 于 数据 聚集 、 分 析 及 可 视 化 。 


4) 基础 数据 分 析 : 经 过 数据 清洗 ， 用 户 可 以 进一步 进行 数据 的 分 析 ， 例 如 ， 执 行 最 基本 的 数据 分 析 即 探索 性 数据 分 析 ， 包 括 计算 数据 的 汇总 信息 、 采 用 基本 的 统计 、 聚 类 以 及 可 视 化 方法 来 帮助 用 户 更 
好 地 理解 数据 的 特征 ， 我 们 还 可 以 通过 图 形 展现 来 发 现 数 据 的 主要 性 质 、 变 化 趋势 以 及 孤立 点 等 信息 。 


5) 高 级 数据 分 析 : 至 此 ， 我 们 已 经 可 以 通过 描述 性 统计 得 到 有 关 数 据 特征 的 一 个 大 概 的 印象 。 但 如 果 我 们 希望 能 从 中 得 出 一 些 推论 ， 让 用 户 以 此 为 依据 根据 输入 参数 预测 数据 特征 ， 就 必须 再 借助 机 器 
学 习 的 方法 基于 训练 数据 生成 预测 模型 ， 再 利用 预测 模型 根据 给 定 输入 预测 输出 。 


6) 模型 评估 : 最 后 ， 为 了 评估 生成 的 模型 是 否 在 给 定 问题 领域 能 够 得 到 最 优 的 效果 ， 我 们 还 必须 再 完成 模型 的 筛选 。 该 任务 通常 包含 多 个 步 又， 包括 数据 预 处 理 、 参 数 调 优 、 机 器 学 习 算法 切换 。 我 们 
应 该 记 住 最 简单 的 模型 往往 能 取得 最 好 的 预测 及 挖 握 效 果 ， 复 杂 模 型 却 常常 会 带 来 过 度 适应 的 问题 。 


在 下 列 样 例 中 ， 我 们 将 根据 泰坦 尼克 号 获救 乘客 的 数据 进行 一 个 简单 的 数据 挖掘 ， 具 体内 容 包括 从 在 线 数据 源 Kaggle 获 取 数 据 ， 完 成 数据 清洗 ， 执 行 基本 的 数据 分 析 判 断 哪些 属性 对 逃生 概率 预测 有 重 
影响 ， 再 执行 深度 数据 挖掘 ， 构 建 分 类 算法 ， 根 据 给 定 输入 数据 预测 逃生 概率 。 最 后 ， 进 行 模型 评 佑 并 得 到 预测 模型 。 


2.2 从 CSV 文 件 中 读 取 Titanic 效 据 集 


在 启动 数据 挖掘 之 前 ， 我 们 需要 从 Kaggle (https://www.kaggle.com/) 下 载 数 据 集 ， 我 们 在 第 1 章 中 已 经 介绍 了 其 中 的 一 些 样 例 ， 本 章 将 探讨 使 用 这 些 方法 来 处 理 现实 世界 问题 。 
1. 准 备 


如 果 要 从 Kaggle 下 载 数据 ， 我 们 首先 要 注册 一 个 Kaggle 账 号 (https://www.kaggle.com/account/register) ， 然 后 使 用 该 账号 登录 进行 下 一 步 工 作 。 


Sign Up 


We're the global leader in 
solving business challenges 
through predictive analytics. 





2. 操 作 
执行 以 下 操作 ， 完 成 从 csv 文 件 读 取 Titanic 数 据 集 : 
1) 访问 http://www.kaggle.com/c/titanic-gettingStarted/data 获 取 数 据 列 表 。 


2) 我 们 将 看 见 如 下 表 所 示 供 下 载 的 数据 文件 清单 : 


文件 名 可 用 格式 
train .esv ( 59.76 KB) 
genderclassmodel .py ( 4.68 KB) 
myfirstforest .esv ( 3.18 KB) 
myfirstforest py (3.83 KB) 
gendermodel .esv ( 3.18 KB) 
genderclassmodel .esv ( 3.18 KB) 
test .esv ( 27.96 KB) 
gendermodel py (3.58 KB) 


3) 下 载 测 试 数据 (https:;//www.kaggle.com/c/titanicgettingStarted/download/train.csv) 到 硬盘 。 


4) 确保 下 载 的 文件 已 经 放 在 当前 工作 路 径 ， 我 们 可 以 使 用 getwd 函 数 获取 当前 工作 路 径 。 如 果 下 载 文件 不 在 该 路 径 中 ， 将 其 移 至 当前 工作 路 径 ， 或 者 使 用 setwd () 重新 设置 当前 工作 路 径 到 下 载 文件 
所 在 的 位 置 : 


> getwd() 
[1] "C:/Users/guest" 


5) 使 用 read.csv 将 数据 装载 到 数据 框架 中 。 我 们 可 以 用 read.csv 函 数 读 取 train.csv 文 件 到 名 为 train.data 的 数据 框架 。 另 外 ， 为 了 将 空白 字符 串 当做 NA 值 处 理 ， 我 们 可 以 指定 na.string 等 同 “NA"” 或 
者 空 字符 串 : 


> train.data = read.csv("train.csv", na.stringszc("NA", "")) 


6) 使 用 str 函 数 查 看 下 载 数据 集 : 


» str(train.data) 

'data.frame': 891 obs. of 12 variables: 
$ PassengerId: int 12345678910 ... 
$ Survived e EE QLUTBLIgT3 o ULT i 


$ Pclass E IND OL 3 L3 L3» FX ues 

$ Name : Factor w/ 891 levels "Abbing, Mr. Anthony",..: 109 
191 358 277 16 559 520 629 417 581 ... 

$ Sex : Factor w/ 2 levels "female","male": 2 111222 
zx d E ei 

$ Age : nun 22 38 26 35 35 NA 54 2 27 14 ... 

$ SibSp sb e a i LOBDDODIX I... 

$ Parch £u: b DUOD0gULZ230 ,—NJ 

$ Ticket : Factor w/ 681 levels "110152","110413",..: 524 597 
670 50 473 276 86 396 345 133 ... 

$ Fare s hà 7.25 71.28 7.92 53:1 8.05 ... 

$ Cabin : Factor w/ 148 levels "","A10","A14",..: 183 1 57 


14 3XL LX € s.s 
$ Embarked : Factor w/ 4 levels "","C","","$": 42444 34 4 


3. 原 理 


我 们 需要 在 启动 数据 挖掘 之 前 先 从 Kaggle 下 载 Titanic 数 据 集 。Kaggle 是 一 个 拥有 很 多 竞赛 数据 集 的 网 站 。 如 果 要 将 数据 导入 数据 框 中 ， 可 以 使 用 read.csv 函 数 ， 并 设置 好 na.strings 参 数 ， 以 便 将 空白 
字符 串 和 “NA” 转换 为 NA 值 。 为 了 查看 数据 集 的 结构 ， 我 们 还 可 以 使 用 str 函 数 来 简单 查看 train.data 的 结构 ， 从 输出 结果 可 知 ， 该 数据 集 包 括 乘 客 的 统计 信息 和 是 否 获救 的 结果 ， 它 已 经 可 以 帮助 我 们 这 
些 初学 者 开始 进行 数据 分 析 和 处 理 的 实践 了 。 


4. 扩 展 
Kaggle 网 站 上 提供 的 科学 数据 集 大 多 与 竞赛 相关 ， 常 被 应 用 于 设计 某 种 机 器 学 习 算法 处 理 现实 问题 。 


Kaggle 上 的 比赛 大 多 由 一 些 学 会 或 公司 举办 ， 例 如 Amazon 和 Facebook， 他 们 会 提供 一 些 相 应 的 奖金 和 职位 以 作为 对 优胜 者 的 奖励 (参见 https://www.kaggle.com/competitions) ， 因 此 有 非常 多 
的 数据 科学 家 被 此 吸引 并 注册 了 Kaggle 账 号 参加 相关 的 竞赛 。 如 果 是 数据 分 析 菜 鸟 ， 也 可 以 参加 其 中 的 某 些 比赛 ， 通 过 在 比赛 中 利用 自己 的 机 器 学 习 技 能 来 解决 现实 世界 中 的 难题 ， 从 而 增长 经 验 值 。 


为 了 使 比赛 更 具有 挑战 性 ， 参 赛 者 要 提交 自己 的 答案 然后 得 到 一 个 评分 ， 并 可 以 在 积分 榜 上 看 到 自己 的 排名 。 


2.3 ”根据 数据 类 型 进行 转换 


在 R 中 ， 由 于 定 类 、 定 序 、 定 距 、 定 比 变量 在 统计 建 模 时 需要 采用 不 同 的 处 理 方法 ， 我 们 必须 将 定 类 变量 从 字符 转换 为 因子 (factor) 。 
1. 准 备 

读者 需要 完成 前 述 章节 的 操作 ， 使 用 read.csv 函 数 将 Titanic 数 据 集 导 入 R 会 话 中 ， 同 时 ， 还 需要 将 na.string 参 数 设 置 为 NA 和 空 字符 串 ('') ， 从 train.csv 导 入 的 数据 应 存放 在 train.data 变 量 中 。 
2. 操 作 

执行 以 下 操作 ， 完 成 变量 类 型 的 转换 : 


1) 使 用 str 孙 数 输出 Titanic 数 据 的 概述 : 


> str(train.data) 


'data.frame': 891 obs. of 12 variables: 


$ PassengerId: int 123456789 10 ... 

$ Survived s inb UU IT LOD NUN E spi 

$ Pclass IHE d I.S T3313 3 S 

$ Name Factor w/ 891 levels "Abbing, Mr. Anthony",..: 109 
191.358 277 16 5559 520 629 417 S581 sus 

$ Sex Factor w/ 2 levels "female", "male": 2 1 1 1 2 2 2 
Z XE ewe 

$ Age : num 22 38 26 35 35 NA 54 2 27 14 ... 

$ SibSp t£ dnb l1 IU LUUU-A8BD.ZizFZivs 

$ Parch : int 0U0UUn7nubDboOol12üus3,.:. 

$ Ticket Factor w/ 681 levels "110152","110413",..: 524 597 


670 50 473 276 86 396 345 133 


$ Fare s« num —.2u IL.Z2BÀ 7.92 53.1 8.05 ... 

$ Cabin Factor w/ 147 levels "A10","A14","A16",..: NA 82 
NA 56 NA NA 130 NA NA NA ... 

$ Embarked Factor w/ 3 levels EC "On "Hi". 313332333 
E ux 


2) 为 了 将 int 数 值 类 型 的 变量 转换 为 factor 类 别 类 型 ， 使 用 factor 转 换 函 数 : 


> train.data$Survived 


fac 


> train.data$Pclass 


3) 使 用 str 函 数 输 
= str(train.data) 


'data.frame': 891 obs. 


factor(train.data$Survived) 


tor(train.data$Pclass) 


变量 信息 ， 现 在 属性 Pclass 和 Survive 都 已 经 转换 为 因子 了 : 


of 12 variables: 


$ PassengerId: int 123456789 10 ... 

$ Survived = Factor wj 2 levels "UJ" ."1". 12 22 11112 2 

$ Pclass + wJ 3 levels "1";"2" "3": 3 12.171343 1743.3 
D pas 

$ Name : Factor w/ 891 levels "Abbing, Mr. Anthony",..: 109 
191 358 277 16 559 520 629 417 581 ... 

$ Sex : Factor w/ 2 levels "female","male": 2111222 
E X oo» 

$ Age : num 22 38 26 35 35 NA 54 2 27 14 ... 

$ SibSp & HE EZ L0 LODUOSS3 SÜD) ase 

$ Parch s: oe DUODUNUUOUUgLIZI S Uiz.:.L 

$ Ticket : Factor w/ 681 levels "110152","110413",..: 524 597 
670 50 473 276 86 396 345 133 ... 

$ Fare sn — TIAS TLRS 1:92 53.1 BeOS oau 

S Cabin : Factor w/ 147 levels "A10","Aj4","A16",..: NA 82 
NA 56 NA NA 130 NA NA NA ... 

$ Embarked : Factor w/ 3 levels "C","0O","g". 3 13332333 
LZ ues 


3. 原 理 


变量 类 型 


提 到 统计 ， 常 用 


包括 定 类 、 定 序 、 定 距 、 定 比 。 其 中 ， 定 类 变量 被 用 于 标记 对 象 的 类 别 ， 如 性 别 和 名 称 ; 定 序 


M 


^N 


变量 是 对 非 数 值 概念 的 一 种 测量 ， 如 满意 度 和 兴奋 度 。 定 距 变 量 展 示 了 对 象 间 的 


数值 差距 ， 不 仪表 示 了 对 象 之 间 的 顺序 ， 还 能 够 表达 差异 的 大 小 ， 如 摄氏 温度 。 定 比 变量 可 以 表示 连续 变量 的 量 级 与 其 单位 量 级 的 比值 ， 可 以 通过 定 比 变量 表示 变量 值 的 次 序 和 差距 ， 定 比 变量 具有 一 个 真 
正 的 零点 ， 如 重量 和 高 度 。 在 R 中 ， 不 同类 型 的 测量 方法 的 计算 方式 不 同 ， 因 此 我 们 在 对 数据 集 进 行 描述 性 或 推断 性 分 析 之 前 必须 要 完成 类 型 转换 。 


在 本 节 ， 我 们 首先 使 用 str 函 数 展 示 了 训练 数据 的 结构 ， 从 输出 可 以 获得 属性 的 名 称 、 域 以 及 每 个 属性 的 前 几 行 的 值 这 样 一 些 信息 。 我 们 可 以 发 现 属性 Survived 和 Pclass 都 是 int 


型 ，Survived (0=No，1=Yes) 和 Pclass (1=1st; 2=2nd; 3-3rd) 都 属于 定 类 变量 ， 我 们 使 用 factor 函 数 将 这 两 个 变量 转换 为 因子 类 型 。 
4 扩展 


除了 factor，R 还 提供 了 多 个 数据 类 型 转换 函数 。 例 如 ， 对 于 数值 型 属性 ， 有 is.numeric () 和 as.numeric () ; 对 于 字符 类 型 ， 有 is.character () 和 as.character () 函数 ; 对 于 向 量 ， 有 
is.vector () 和 as.vector O ;对 于 和 矩阵 ， 则 有 is.matrix () 和 as.matrix O ; 如果 是 数据 框 ， 有 is.data.frame () 和 as.data.frame () 。 


2.4 ”检测 缺失 值 


缺失 值 降 低 了 样本 的 代表 性 ， 同 时 ， 还 可 能 导致 对 总 体 的 错误 推断 。 本 节 将 着 重 探讨 如 何 发 现 Titanic 数 据 集中 的 缺失 值 。 
1. 准 备 

读者 需要 完成 前 述 章节 的 操作 ， 将 属性 Pclass 和 Survived 转 换 为 因子 类 型 。 

R 用 NA (not available) 代表 缺失 值 ， 用 NaN (not a number) 代表 不 可 能 存在 的 值 。 
2. 操 作 

执行 以 下 操作 来 检查 缺失 值 : 


1) 函数 is.na 可 以 用 来 检查 当前 属性 值 是 否 包含 NA 值 ， 我 们 首先 将 它 用 在 Age 属 性 上 : 
> is.na(train.data$Age) 
2) 函数 is.na 对 属性 Age 中 的 缺失 值 进行 了 标记 ， 我 们 可 以 用 sum 函 数 统计 缺失 值 的 总 数 : 


> sum(is.na(train.data$Age) == TRUE) 
ELI XJ 


3) 用 缺失 值 总 数 除 以 非 缺 失 值 总 数 来 计算 缺失 比例 : 


> sum(is.na(train.data$Age) == TRUE) / length(train.data$Age) 
[1] 0.1986532 


4) 用 sapply 函 数 来 计算 所 有 属性 缺失 值 的 比例 : 


> sapply(train.data, function(df) { 


十 sum(is.na(df)--TRUE)/ length(df); 

+ }) 

PassengerId Survived Pclass Name Sex 
Age 


0.000000000 0.000000000 0.000000000 0.000000000 0.000000000 
0.198653199 


SibSp Parch Ticket Fare Cabin 
Embarked 


0.000000000 0.000000000 0.000000000 0.000000000 0.771043771 
0.002244669 


5) 除了 观察 缺失 值 的 比例 ， 我 们 还 可 以 使 用 Amelia 包 对 缺失 数据 进行 可 视 化 处 理 。 本 节 ， 我 们 使 用 install.packages 以 及 require 命 令 来 安装 和 导入 Amelia 包 。 不 过 在 安装 和 导入 Amelia 包 之 前 ,我 们 
还 必须 先 安装 好 Rcpp 包 : 


> install.packages ("Amelia") 


> require (Amelia) 


6) 使 用 missmap 遂 数 绘 制 缺失 值 示 意图 : 


> missmap(train.data, main-"Missing Map") 


Missing Map 
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Titanic 数 据 集 缺失 值 图 


3. 原 理 


R 中 的 缺失 值 常用 “NA” 表示， 意味 着 该 值 不 可 得 。 大 多 数 函 数 (例如 mean 或 sum) 当 数 据 集中 存在 NA 值 时 会 输出 NA。 尽 管 我 们 可 以 设置 参数 ， 例 如 用 na.rm 来 消除 NA 对 整体 计算 的 影响 ， 但 是 更 
好 的 处 理 方法 是 直接 去 掉 缺 失 值 ， 以 避免 其 可 能 带 来 的 一 连 串 负面 作用 。 为 了 找到 Titanic 数 据 集中 的 缺失 值 ， 我 们 首先 计算 得 到 缺失 值 占 总 体 样本 的 比例 ， 然 后 使 用 sapply 函 数 来 处 理 所 有 属性 。 


另外 ， 为 了 用 表 展 示 计 算 结果 ， 我 们 使 用 了 Amelia 包 在 一 张 图 中 绘制 每 个 属性 的 缺失 值 。 借 助 图 形 ， 用 户 可 以 更 好 地 了 解数 据 集中 缺失 值 的 比例 。 在 上 图 中 ， 我 们 可 以 用 米黄 色 来 表示 缺失 值 ， 深 红色 
代表 观测 量 ，x 轴 为 不 同属 性 名 称 ，y 轴 为 记录 的 索引 。 很 明显 ， 大 多 数 属性 都 包含 缺失 值 。 例 如 ，Age 属 性 有 19.87% 的 记录 缺失 ， 而 Embraked 属 性 有 两 个 值 缺失 。 


4 扩展 


为 了 处 理 缺 失 值 ， 我 们 使 用 了 Amelia 包 对 其 进行 可 视 化 。 除 了 使 用 命令 行 方式 ， 我 们 还 可 以 使 用 Amelia 和 AmeliaView 包 提供 的 交互 式 GUI1， 它 支持 用 户 装载 数据 集 ， 管 理 选 项 卡 ， 并 以 窗口 环境 运行 
Amelia。 


我 们 可 以 在 R 的 控制 台 键 入 AmeliaView () 来 启动 AmeliaView : 


> AmeliaView() 


i AmeliaView 
File Marebhlat: Options Output Help 


Welcome to AmeliaView 17.21 


Please load a dataset: 


AmeliaView 


2.5 jM B 


在 检测 完 每 个 属性 所 包含 的 缺失 值 情况 后 ， 我 们 可 以 开始 插 补 缺失 值 ， 因 为 这 些 缺 失 值 有 可 能 对 形成 数据 推断 有 重要 意义 。 
1. 准 备 

本 节 要 求 在 R 会 话 中 已 经 装载 了 train.data 变 量 ， 并 完成 前 述 章节 的 操作 ， 属 性 Pclass 和 Survived 已 经 转换 成 因子 类 型 。 
2. 操 作 


执行 以 下 操作 揪 补 缺失 值 : 


1) 首先 列 出 出 发 港口 的 分 布 。 在 这 里 ， 我 们 增加 了 useNA= “always” 的 参数 设置 ， 以 展示 train.data 中 包含 了 NA 值 的 个 数 : 


> table(train.data$Embarked, useNA = "always") 


C Q S «NA» 
168 77 644 2 


2) 将 其 中 两 个 缺失 值 处 理 为 更 可 能 的 港口 (概率 最 大 的 港口 ) ， 在 样 例 中 为 Southa-mpton 


> train.dataS$Embarked[which(is.na(train.data$Embarked))] = 'S'; 
> table(train.data$Embarked, useNA = "always") 


G Q S <NA> 
168 77 646 0 


3) 为 了 得 到 train.data 中 不 同 的 称呼 类 别 ， 我 们 首先 用 空白 (HKA "Ns" ) 标记 train.data$Name， 然 后 用 table 函 数 来 计算 其 出 现 频数 ， 又 因为 称呼 经 常 以 符号 “.” 


索 带 有 该 符号 的 单词 。 最 后 ， 对 表 进 行 降序 排列 : 





结尾 ， 我 们 用 常规 格式 来 检 


> train.data$Name = as.character(train.data$Name) 
> table words = table(unlist(strsplit (train.data$Name, "\\s+"))) 


> sort(table words [grep('\\.',names (table words))], 
decreasing=TRUE) 


Mr. Miss. Mrs. Master. 
X NI 182 125 40 
Hz. Rev. Col. Major. 
T 6 2 2 
Mlle. Capt. Countess. Don. 
2 1 XL L 
Jonkheer. L. Lady . Mme. 
1l 1 IL 1 
Ms. HIX: 
1 1l 


4) 为 了 找到 包含 缺失 值 的 不 同人 群 ， 我 们 使 用 stringr 包 提供 的 str match 函数 来 匹配 包含 符号 “.” 的 子 字符 串 ， 然 后 使 用 cbind 函 数 将 列 拼 在 一 起 。 最 后 ， 使 用 table 函 数 来 获得 缺失 值 的 统计 信息 ， 并 
对 每 种 人 群 进行 计数 : 
> library(stringr) 


> tb = cbind(train.data$Age, str match(train.data$Name, " 
[a-zA-Z]+\\.")) 


» table(tb[is.na(tb[,11),21) 


Dr. Master. Miss. Mr. Mrs. 


1l 4 36 119 LI 


5) 如 果 某 个 人 群 包 含 缺 失 值 ， 揪 补 的 一 种 方式 是 将 每 一 类 人 群 (不 包含 缺失 值 ) : 


> mean.mr = mean(train.data$Age[grepl(" Mr\\.", train.data$Name) & 
lis.na(train.data$Age)]) 


> mean.mrs = mean(train.data$Age[grepl(" Mrs\\.", train.data$Name) 
& lis.na(train.data$Age)]l) 


> mean.dr = mean(train.data$Age[grepl(" Dr\\.", train.data$Name) & 
lis.na(train.data$Age)]) 


> mean.miss = mean(train.data$Age[grepl(" Miss\\.", train. 
data$Name) & lis.na(train.data$Age)]l) 


> mean.master = mean(train.data$Age[grepl(" Master\\.", train. 
data$Name) & l!is.na(train.data$Age)]l) 


6) 将 每 类 人 的 属性 均值 插 补 到 缺失 值 中 : 
> train.data$Age[grepl(" Mr\\.", train.data$Name) & is.na(train. 


data$Age)] = mean.mr 


> train.data$Age[grepl(" Mrs\\.", train.data$Name) & is.na(train. 
data$Age)] = mean.mrs 


> train.data$Age[grepl(" Dr\\.", train.data$Name) & is.na (train. 
data$Age)] = mean.dr 


> train.data$Age[grepl(" Miss\\.", train.data$Name) & is.na(train. 
data$Age)] = mean.miss 


> train.data$Age[grepl(" Master\\.", train.data$Name) & 
is.na(train.data$Age)] = mean.master 


3. 原 理 


为 了 插 补 Embarked 属 性 的 缺失 值 ， 我 们 首先 使 用 table 国 数 对 登 船 港口 信息 进行 了 统计 ，table 函 数 计算 出 在 train.data 中 包含 两 个 缺失 值 。 从 数据 集 的 描述 可 知 ，C、Q 和 3 分 别 代表 Cherbourg、 


Queenstown 和 Southampton。 由 于 我 们 对 缺失 值 所 在 类 别 没有 任何 先 验 知识 ， 因 此 一 个 可 能 的 插 补 方式 就 是 将 缺失 值 出 现 次 数 最 多 的 港口 ， 即 Soutampton 确 定 为 插 补 值 。 


对 于 另 一 属性 Age， 尽 管 大 约 存在 20% 的 缺失 值 ， 仍 然 可 以 通过 每 位 乘客 的 称呼 来 推断 其 可 能 的 年 龄 。 为 了 获得 数据 集中 到 底 包 含 多 少 不 同 称呼 的 人 群 ， 我 们 将 Name 属 性 作为 可 能 的 分 隔 词 ， 以 帮助 
我 们 计算 不 同 身 份 的 人 群 其 缺失 值 的 个 数 。 从 结果 可 得 诸如 Mr、Mrs、Miss 以 及 Master 这 样 一 些 常见 的 人 称 。 我 们 可 以 从 维基 百科 来 获得 对 这 些 称呼 的 释义 。 


对 于 缺失 值 ， 我 们 考虑 根据 他 们 的 身份 ， 将 其 所 属 人 群 的 年 龄 平均 值 来 揪 补 缺失 值 。 不 过 ， 对 于 Cabin 属 性 ， 由 于 该 属性 的 缺失 值 太 多 ， 我 们 没 办 法 从 其 他 参考 的 属性 来 推断 缺失 值 ， 因 此 ， 我 们 在 进 
一 步 的 分 析 中 不 再 尝试 使 用 该 属性 。 
4. 扩 展 

这 里 ， 我 们 列 出 了 维基 百科 的 人 称 释 义 入 口 (http://en.wikipedia.org/wiki/English_honorific) 供 参 考 ， 其 中 : 
"Mr: 男性 的 通称 ， 与 婚姻 状况 无 关 。 


: Master: 适用 于 年 轻 男子 或 男孩 ， 在 英国 使 用 得 比较 普遍 。 





: Miss: 通常 用 于 称呼 未 婚 女性 ， 也 会 用 来 称呼 已 婚 的 女性 艺人 。 
|: Mrs: 已 婚 女性 的 通称 。 


| Dr: 在 美国 常用 于 称呼 拥有 博士 学 位 的 人 。 


2.6 ”识别 和 可 视 化 数据 


插 补 完 缺失 值 后， 我 们 应 该 可 以 开始 一 些 探索 性 数据 分 析 ， 例 如 使 用 图 形 以 及 聚 类 方法 来 总 结 数据 的 特征 。 这 些 结果 可 以 帮助 我 们 在 使 用 时 更 好 地 理解 数据 的 特征 。 在 本 节 ， 我 们 将 探讨 如 何 使 用 基本 
的 画图 工具 绘制 图 形 来 开展 探索 性 数据 分 析 。 
1. 准 备 

读者 需要 完成 前 述 章节 的 操作 ， 处 理 好 age 和 Embarked 属 性 的 缺失 值 揪 补 。 
2. 操 作 

执行 以 下 操作 ， 完 成 数据 的 探索 和 可 视 化 : 


1) 使 用 条 形 图 和 直方 图 ， 对 属性 进行 描述 性 统计 分 析 ， 以 乘客 是 否 获 救 为 例 : 


> barplot(table(train.data$Survived), main-"Passenger Survival", 
names- c("Perished", "Survived")) 


Passenger Survival 


Perished survived 





获救 乘客 信息 


2) 绘制 乘客 舱位 等 级 分 布 的 条 形 图 : 


> barplot(table(train.data$Pclass), main-"Passenger Class", 
names- c("first", "second", "third")) 


Passenger Class 


乘客 舱位 等 级 分 布 
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3) 用 条 形 图 展示 性 别 信息 : 


> barplot(table(train.data$Sex), main="Passenger Gender") 


Passenger Gender 


乘客 性 别 信 息 





4) 使 用 hist 函 数 绘制 不 同年 龄 乘客 数目 的 直方 图 : 


> hist(train.data$Age, main-"Passenger Age", xlab = "Age") 


Passenger Age 
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乘客 年 龄 信息 


5) 绘制 乘客 同 船 的 兄弟 姐妹 或 配偶 数目 的 条 形 图 : 


> barplot (table(tralin.data$SibSp) ，main="Passenger Siblings") 


Passenger Siblings 


0 2 3 4 





乘客 同 船 的 兄弟 姐妹 或 配偶 信息 


6) 接 下 来 ， 绘 制 父 母子 女 同 船 的 乘客 信息 分 布 : 


> barplot(table(train.data$Parch), main-z"Passenger Parch") 


Passenger Siblings 


0 2 3 4 





父母 子女 同 船 的 乘客 信息 


7) 绘制 乘客 票 价 的 直方 图 : 


> hist(train.data$Fare, main-"Passenger Fare", xlab = "Fare") 


Passenger Parch 





乘客 船 票 价格 的 信息 


8) 最 后 ， 绘 制 乘 客 出 发 港口 的 信息 : 


> barplot(table(train.data$Embarked), main-"Port of Embarkation") 


Port of EmDbarkation 


| uu 





出 发 的 港口 
9) 使 用 barplot 函 数 寻 找 什 么 性 别 的 乘客 在 沉船 事故 中 丧生 概率 更 大 : 
> counts = table( train.data$Survived, train.data$Sex) 
> barplot (counts,  colszc("darkblue","red"), legend = c("Perished", 
"Survived"), main - "Passenger Survival by Sex") 


Passenger Survival by Sex 


B Suwed 
B Pershed 


female 





获救 乘客 的 性 别 分 布 图 


10) 接 下 来 ， 检 验 乘 客 的 船舱 等 级 (Pclass 因 子 ) 是 否 对 逃生 概率 有 影响 : 


> counts = table( train.data$Survived, train.data$Pclass) 


> barplot(counts,  colszc("darkblue","red"), legend -zc("Perished", 
"Survived"), main- "Titanic Class Bar Plot" ) 


Titanic Class Bar Plot 


获救 乘客 舱位 分 布 信息 
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11) 分 析 每 种 舱位 中 乘客 性 别 的 分 布 : 
> counts = table( train.data$Sex, train.data$Pclass) 


> barplot(counts,  colszc("darkblue","red"), legend = 
rownames(counts), main- "Passenger Gender by Class") 


Passenger Gender by Class 
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不 同 舱位 乘客 性 别 分 布 


12) 进一步 地 ， 通 过 直方 图 查看 乘客 年 龄 的 分 布 : 


> hist(train.data$Age[which(train.data$Survived == "0")], main- 
"Passenger Age Histogram", xlab-"Age", ylab-"Count", col -"blue", 
breaks-seq(0,80,by-22)) 


> hist(train.data$Age[which(train.data$Survived == "1")], col 
2"red", add = T, breaks-seq(0,80,by-2)) 


Passenger Age Histogram 





13) 为 了 获得 更 多 有 关 年 龄 与 逃生 概率 之 间 的 细节 ， 使 用 boxplot 消 数 画 箱 线 图 来 分 析 : 


m 


> boxplot (train.data$Age ~ train.data$Survived, 
- main-z"Passenger Survival by Age", 


十 xlab-"Survived", ylab-"Age") 


Passenger Survival by Age 





获救 乘客 的 年 龄 箱 线 图 


14) 将 乘客 依据 年 龄 段 分 成 不 同 的 组 ， 例 如 儿童 (小 于 13 岁 ) 、 少 年 (13~19 岁 ) 、 成 年 (20-652) 以 及 老年 (大 于 65 岁 ) ， 执 行 下 列 命令 : 


>train.child = train.data$Survived[train.data$Age < 13] 


> length(train.child[which(train.child -- 1)] ) / length(train. 
child) 


LI] 0.579 FIUI 


> train.youth = train.data$Survived[train.data$Age >= 15 & train. 
data$Age < 25] 


» length(train.youth[which(train.youth -- 1)] ) / length(train. 
youth) 


[1] 0.4285714 


> train.adult = train.data$Survived[train.data$Age >= 20 & train. 
data$Age < 65] 


> length(train.adult[which(train.adult == 1)] ) / length (train. 
adult) 


[1] 0.3659218 


> train.senior = train.data$Survived[train.data$Age >= 65] 


» length(train.senior[which(train.senior -- 1)] ) / length(train. 
senior) 


[1] 0.09090909 


3. 原 理 
在 开始 预测 逃生 概率 之 前 ， 我 们 首先 应 该 学 会 使 用 聚 类 以 及 可 视 化 的 方法 来 观察 每 个 属性 对 乘客 命运 的 影响 。 因 此 ， 我 们 先 使 用 条 形 图 和 直方 图 来 观察 每 个 属性 。 


从 接 下 来 的 输出 结果 可 知 Titanic 数 据 集 上 每 个 属性 的 分 布 ， 从 第 一 个 图 可 知 ， 大 多 数 乘客 在 事故 中 丧生 ， 只 有 少数 乘客 获救 。 三 等 舱 里 的 乘客 所 占 乘客 比例 最 大 ， 这 也 意味 着 Titanic 号 上 三 等 舱 是 最 经 
济 的 舱位 (步骤 2) ) 。 船 上 男性 乘客 人 数 多 于 女性 乘客 (步骤 3) ) ， 船 上 大 多 数 乘客 年 龄 都 在 20~40 岁 之 间 GERA) ) ， 大 多 数 乘客 都 有 一 到 两 位 随行 的 兄弟 姊妹 或 配偶 (步骤 5) ) 。 大 多 数 乘客 父母 
或 子女 随行 的 人 数 都 在 0 到 2 人 之 间 (步骤 6) ) 。 步 骤 7， 票 价 直方 图 显示 票 价 的 不 同 导致 Titanic 上 乘客 舱位 等 级 的 差别 。 最 后 ， 步 骤 8 的 输出 结果 告诉 我 们 Titanic 号 曾 在 三 个 港口 停留 搭载 乘客 。 


当 我 们 开始 探索 sex 属 性 时 ， 我 们 首先 决定 使 用 了 条 形 图 ， 从 结果 可 知事 故 中 女性 乘客 的 获救 概率 要 高 于 男性 乘客 (步骤 9) ) 。 另 外 ， 维 基 百 科 对 RMS Titanic 
(http://en.wikipedia.org/wiki/RMS Titanic) 的 说 明 也 解释 了 “ 绝 大 多 数 男性 乘客 留 在 甲板 上 ， 是 因为 负责 放下 救生 艇 的 船员 提出 “妇女 儿童 优先 ”的 原则 ”。 因此， 女性 乘客 获救 人 数 要 超过 男性 乘客 
是 合理 的 。 换 名 话说， 简单 地 通过 sex 属 性 ， 我 们 对 乘客 能 否 获 救 的 预测 准确 度 较 高 。 

然后 ， 我 们 对 乘客 舱位 等 级 与 逃生 率 的 影响 进行 了 分 析 (步骤 10) ) 。 这 里 ， 根 据 PClass 属 性 的 定义 ， 不 同 舱位 等 级 的 票 价 是 由 其 提供 的 服务 质量 所 决定 的 ， 头 等 舱 票 价 最 高 ， 三 等 舱 票 价 最 低 。 由 于 

乘客 所 选择 的 舱位 等 级 暗示 了 其 社会 和 经 济 地 位 ， 因 此 相对 富有 的 乘客 逃生 几率 更 大 这 个 假定 存在 一 定 合理 性 。 

不 笠 的 是 ， 在 乘客 舱位 与 逃生 概率 之 间 没 有 明显 关联 ， 因 此 从 结果 图 看 不 到 我 们 希望 的 预测 关系 。 不 过 ， 当 我 们 重新 检查 了 sex 属 性 中 的 pclass 分 布 (步骤 11) ) 后 ， 可 以 得 知 大 多 数 三 等 舱 的 乘客 是 男 

性 ， 因 此 富有 的 乘客 逃生 概率 更 大 这 一 假设 也 不 是 那么 可 靠 。 

接 下 来 ， 我 们 又 使 用 直方 图 和 条 形 图 分 析 了 乘客 年 龄 与 乘客 命运 的 关系 (步骤 12) ) ， 从 结果 可 知 ， 条 形 图 中 用 水 平 立 柱 表示 年 龄 分 布 ， 其 中 红色 段 代 表 获 救 乘客 的 数量 ， 而 蓝 色 段 则 为 遇难 乘客 的 数 
量 。 这 个 结果 并 不 能 很 明确 地 告知 我 们 不 同年 龄 段 在 逃生 概率 上 的 不 同 ， 也 不 能 证 明 不 同年 龄 段 的 乘客 哪 一 个 更 容易 获救 。 另 外 ， 从 数据 可 知 ， 大 多 数 乘客 的 年 龄 都 在 20 岁 至 40 岁 之 间 ， 但 是 我 们 没有 明确 
的 证 据说 明 与 儿童 或 老年 乘客 相 比 ， 该 年 龄 段 的 乘客 逃生 概率 更 高 (步骤 13) ) 。 因 此 ， 我 们 又 引入 了 箱 线 图 ， 一 种 标准 化 的 画图 工具 ， 显 示 出 数据 的 分 布 情况 ， 包 括 数据 的 最 小 值 、1/4 分 位 数 、 中 位 
值 、3/4 分 位 数 、 最 大 值 以 及 孤立 点 等 。 

然后 ， 我 们 对 不 同年 龄 段 乘客 逃生 概率 进行 了 分 析 ， 我 们 根据 乘客 年 龄 将 其 分 成 四 组 。 从 结果 可 知 ， 儿 童 组 (小 于 13 岁 ) 逃生 概率 要 大 于 少年 组 (13~20 岁 ) 、 成 年 组 (20~65 岁 ) 以 及 老年 组 (大 于 
65 岁 ) 。 从 该 结果 我 们 也 可 以 得 知 ， 年 龄 越 小 的 乘客 在 沉船 中 逃生 概率 更 高 ， 这 也 有 可 能 是 受 “ 妇 女 和 儿童 优先 ”原则 的 影响 。 


4 扩展 


除了 使 用 条 形 图 、 直 方 图 以 及 箱 线 图 来 可 视 化 分 析 数 据 ， 我 们 还 可 以 使 用 vcd 包 中 的 mosaicplot 函 数 来 检查 多 类 变量 之 间 的 关联 。 例 如 ， 当 我 们 分 析 Survived 和 Pclass 变 量 之 间 的 关系 时 ， 可 以 如 下 执行 


AAS. 
mM: 


> mosaicplot(train.data$Pclass ~ train.data$Survived, 
一 main-"Passenger Survival Class", color-TRUE, 


+ xlab-"Pclass", ylab-"Survived") 


Passenger Survival Class 
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更 多 有 关 沉船 事故 的 信息 ， 可 以 阅读 RMS Titanic 的 历史 可 以 参考 维基 百科 的 文档 : http://en.wikipedia.org/wiki/Sinking of the RMS _Titanic， 因 为 当时 提出 的 一 些 逃 生 原 则 在 很 大 程度 上 影响 了 乘 
客 的 逃生 概率 。 


2.7 ”基于 决策 树 预 测 获 救 乘客 
探索 性 分 析 可 以 帮助 我 们 来 观察 单个 或 多 个 变量 对 逃生 概率 的 影响 ， 但 是 ， 我 们 无 法 从 中 获得 到 底 哪些 属性 的 组 合 能 够 得 到 预测 模型 ， 从 而 对 乘客 逃生 概率 进行 预测 。 另 一 方面 ， 机 器 学 习 可 以 从 训练 
数据 集中 生成 预测 模型 ， 并 将 其 用 于 给 定 属性 值 的 可 能 的 类 别 预测 。 因 此 ， 本 节 我 们 将 介绍 如 何 使 用 决策 树 根据 当前 给 定 变量 值 来 预测 乘客 逃生 概率 。 
1. 准 备 
我 们 将 使 用 上 节 已 经 使 用 过 的 train.data 数 据 集 。 
2. 操 作 
执行 以 下 操作 ， 使 用 决策 树 来 预测 乘客 逃生 概率 : 


1) 首先 ， 我 们 构建 一 个 数据 划分 函数 split.dqata， 该 函数 有 三 个 输入 参数 : data，p 和 s。 其 中 ， 参 数 data 代 表 输 入 数据 集 ， 参 数 p 为 从 输入 集中 生成 的 子 集 比重 ， 参 数 s 为 随机 种 子 。 


> split.data = function(data, p = 0.7, s = 666)( 


一 set.seed (s) 

一 index = sample(1:dim(í(data) [11) 

4 train = data[index[1:floor(dim(data) [1] * p)], ] 
一 test = data[index[((ceiling(dim(data) [1] * p)) + 


1):dim(data) [11], ] 


十 return(list(train = train, test = test)) 


E 
2) 将 数据 集 划分 成 两 部 分 ，70% 的 数据 划分 到 训练 集中 ， 剩 下 的 30% 的 数据 划分 到 测试 集中 : 


> allset- split.data(train.data, p = 0.7) 
> trainset = allset$train 


» testset - allset$test 


3) 要 构建 条 件 树 ， 需 要 使 用 party 包 的 ctree 函 数 ， 因 此 首先 要 安装 和 导入 该 包 : 


> install.packages('party') 
> require('party') 


4) 使 用 Survived 作 为 标签 在 使 用 中 生成 预测 模型 ， 然 后 将 分 类 树 模 型 存放 在 train.ctree 变 量 中 : 


> train.ctree = ctree(Survived ~ Pclass + Sex + Age + SibSp + Fare 
+ Parch + Embarked, data-trainset) 


» train.ctree 


Conditional inference tree with 7 terminal nodes 


Response:  Survived 
Inputs:  Pclass, Sex, Age, SibSp, Fare, Parch, Embarked 
Number of observations: 623 


1) Sex -- (male); criterion - 1, statistic - 173.672 
2) Pclass -- (2, 3); criterion - 1, statistic - 30.951 
3) Age <= 9; criterion = 0.997, statistic = 12.173 
4) SibSp <= 1; criterion = 0.999, statistic = 15.432 
5)* weights = 10 
4) SibSp > 1 
6)* weights EL 
3) Age > 9 
7)* weights = 282 


2) Pclass == {1} 
8)* weights = 87 
1) Sex == {female} 
9) Pclass == {1, 2}; criterion = 1, statistic = 59.504 
10)* weights = 125 
9) Pclass -- (3) 
11) Fare <= 23.25; criterion = 0.997, statistic = 12.456 
12)* weights - 85 
11) Fare » 23.25 
13)* weights - 23 


5) fsERdploteR Ze EUR TRU : 


» plot(train.ctree, main-"Conditional inference tree of Titanic 
Dataset") 


Conditional inference tree of Titanic Dataset 
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Titanic 数 据 集 的 条 件 推 理 树 


3. 原 理 
本 节 介绍 了 如 何 使 用 条 件 推理 树 (决策 树 ) ctree 来 预测 乘客 的 逃生 结果 。 尽 管 条 件 推理 树 并 不 是 解决 分 类 问题 的 唯一 方法 ， 不 过 使 用 该 方法 来 预测 获救 乘客 比较 简单 和 易于 理解 。 


我 们 首先 使 用 自 建国 数 split.data 将 数据 集 划 分 成 训练 集 和 测试 集 两 部 分 。 这 样 ， 我 们 就 能 够 先 基 于 训练 集 构建 一 个 预测 模型 ， 然 后 在 模型 评估 环节 将 预测 模型 应 用 于 测试 集 上 。 我 们 还 安装 和 导入 了 
party 包 ， 使 用 函数 ctree 来 构建 预测 模型 ， 将 Survived 作 为 类 标签 。 没 有 考虑 任何 具体 的 属性 ， 我 们 将 Pclass、Sex、Age、Sibsp、Parch、Embarked 和 Fare 属 性 作为 训练 属性 ，Carbin 属 性 由 于 缺失 值 太 
多 被 放弃 。 


当 构 建 好 预测 模型 后 ， 我 们 可 以 以 文本 方式 输出 树 的 预测 路 径 及 节点 ， 也 可 以 使 用 绘图 函数 直接 画 出 该 决策 树 。 从 决策 树 模型 可 知 ， 属 性 的 组 合 可 能 对 预测 乘客 逃生 结果 有 作用 。 在 接 下 来 的 结果 图 
中 ， 我 们 可 以 发 现 属性 Pclass 和 sex 的 组 合 可 以 作为 一 个 比较 好 的 决策 分 支 (节点 9) 来 预测 逃生 概率 。 从 图 中 可 知 ， 位 于 一 等 及 二 等 舱 中 的 女性 乘客 在 沉船 事故 中 大 多 获救 ， 而 男性 乘客 ， 特 别 是 位 于 二 等 
舱 和 三 等 舱 的 年 龄 大 于 9 岁 的 男性 乘客 基本 都 在 此 次 沉船 事故 中 不 乎 遇难。 从 决策 树 中 我 们 还 可 以 发 现 ， 诸 如 Embarked 和 Parch 这 样 的 属性 都 被 丢弃 了 ， 这 是 因为 条 件 推理 树 认为 它们 对 分 类 作用 不 明显 。 


从 决策 树 我 们 还 可 以 发 现 ， 变 量 的 组 合 有 可 能 对 预测 逃生 概率 有 一 定 帮 助 。 除 此 之 外 ， 条 件 推理 树 对 选择 重要 的 分 类 变量 也 有 一 定 作用 ， 我 们 可 以 检查 所 建立 的 树 的 结构 以 查看 这 些 被 挑选 出 来 的 属性 
是 否 符合 我 们 的 猜想 。 
4 扩展 

本 节 探 讨 的 内 容 与 分 类 算法 和 条 件 推理 树 有 关 ， 由 于 我 们 在 此 之 前 没有 介绍 任何 有 关 所 选 算法 的 背景 知识 ， 因 此 如 果 有 必要 的 话 ， 读 者 最 好 使 用 help 函 数 来 查看 party 包 的 ctree 函 数 的 参考 文档 。 


R 还 提供 了 一 个 与 party 包 类 似 的 rpart 决 策 树 包 ， 两 者 之 间 的 差别 在 于 party 包 中 ctree 国 数 可 以 避免 发 生 rpart 包 在 变量 选择 时 的 倾斜 ， 并 且 pParty 包 的 ctree 函 数 更 倾向 选择 那些 能 够 产生 更 多 分 支 或 缺失 
值 多 的 变量 。 不 像 其 他 的 函数 ，ctree 函 数 会 使 用 显著 性 检验 来 选择 变量 ， 而 不 是 选择 那些 使 信息 度量 值 最 大 的 属性 。 


除了 通 数 ctree， 我 们 还 可 以 使 用 函数 svm 来 构建 预测 模型 。 如 果 要 使 用 该 浮 数 ， 要 先 安装 和 导入 e1071 包 ， 使 用 svm 建 立 形成 一 个 预测 模型 ， 如 下 所 示 : 


> install.packages('e1071') 
> require('e1071') 
> svm.model = svm(Survived ~ Pclass + Sex + Age + SibSp + Fare + Parch + 


Embarked, data = trainset, probability = TRUE) 


这 里 ,我们 使 用 svm 展 示 了 在 R 中 我 们 可 以 非常 容易 地 选择 不 同 机 器 学 习 算 法 来 处 理 同一 数据 集 。 更 多 有 关 svm 使 用 的 内 容 ， 请 参考 本 书 第 6 章 。 


2.8 ”基于 混 清算 阵 验 证 预测 结果 的 准确 性 
构建 完 预测 模型 后 ， 一 件 非常 重要 的 事 就 是 对 模型 预测 结果 的 效果 进行 验证 。 在 前 述 章节 中 ， 我 们 使 用 函数 ctree 构 建 了 一 个 预测 模型 ， 同 时 还 预先 将 数据 集 分 成 了 训练 集 和 测试 集 两 个 部 分 。 现 在 ， 我 
们 将 开始 学 习 通 过 利用 混淆 矩阵 来 检验 ctree 函 数 在 逃生 概率 预测 问题 中 的 性 能 。 
1. 准 备 
在 开始 评估 预测 模型 之 前 ， 我 们 首先 确认 在 R 会 话 中 已 经 准备 好 了 训练 数据 集 和 测试 数据 集 。 
2. 操 作 
执行 以 下 操作 验证 预测 模型 的 性 能 : 
1) 使 用 构建 好 的 train.tree 模 型 来 对 测试 数据 集中 的 幸存 者 进行 预测 : 
> ctree.predict = predict(train.ctree, testset) 
2) 我 们 首先 安装 和 导入 caret 包 : 
> install.packages("caret") 
> require(caret) 
3) 导入 包 caret 后 ， 我 们 可 以 使 用 混淆 矩阵 来 形成 输出 和 矩阵 的 统计 信息 : 


> confusionMatrix(ctree.predict, testset$Survived) 


Confusion Matrix and Statistics 


Reference 
Prediction 0 1 

0 160 25 

1 16 66 


Accuracy : 0.8464 
95$ CI: (0.7975, 0.8875) 
No Information Rate : 0.6592 


P-Value [Acc » NIR] : 4.645e-12 
Kappa : 0.6499 


Mcnemar's Test P-Value : 0.2115 


Sensitivity : 0.9091 
Specificity : 0.7253 
Pos Pred Value : 0.8649 
Neg Pred Value : 0.8049 
Prevalence : 0.6592 


Detection Rate : 0.5993 


Detection Prevalence : 0.6929 


Balanced Accuracy : 0.8172 


'"Positive' Class : 0 


3. 原 理 
评估 模型 预测 性 能 是 完成 模型 构建 后 的 一 个 重要 工作 ， 可 以 使 用 测试 数据 集 的 预测 结果 与 实际 类 标签 的 匹配 程度 作为 评估 依据 ， 并 使 用 caret 包 提供 的 预测 准确 度 评 估 工 具 一 一 混淆 和 矩阵 来 完成 评估 。 
为 了 生成 混淆 和 矩 了 别 ， 我 们 首先 需要 安装 和 导入 caret 包 。 从 样 例 混淆 矩阵 的 输出 结果 可 知 ， 单 纯 使 用 ctree 阔 数 能 够 达到 84% 的 准确 度 。 我 们 还 可 以 通过 属性 调 优 ， 或 改 用 SVM、glm 或 随机 森林 算法 来 
形成 更 好 的 预测 模型 。 
4. 扩 展 
caret 包 (分 类 和 回归 训练 ) 简化 了 反复 比较 不 同 的 预测 模型 的 过 程 ， 该 包 还 包含 以 下 一 些 函 数 : 


“ 数据 分 别 。 


. 普通 预 处 理 : 包括 构建 虚拟 变量 ， 确 定 零 方差 或 方差 极 小 的 预测 变量 ， 寻 找 相关 预测 量 、 居 中 处 理 、 扩 展 处 理 等 。 
- 训练 〈 使 用 交叉 检验 ) 。 


常规 可 视 化 (例如 ，featurePlot) 。 


2.9 ”使 用 ROC 曲 线 评 估 性 能 


还 可 以 采用 ROC 曲 线 (要 求 安装 和 导入 ROC 包 ) 来 进行 模型 评估 ， 该 曲线 能 反映 正确 预测 率 与 错误 预测 率 之 间 的 关系 。 本 节 将 探讨 如 何 使 用 ROC 曲 线 来 评估 预测 模型 的 性 能 。 
1. 准 备 

在 使 用 ROC 曲 线 评估 预测 性 能 之 前 ， 首 先 要 确认 在 R 会 话 中 已 经 准备 好 相应 的 训练 数据 集 、 测 试 数据 集 以 及 预测 模型 ctree.predict。 
2 探 作 

执行 以 下 操作 完成 模型 性 能 评估 : 

1) 准备 概率 矩 阵 : 


> train.ctree.pred 


predict(train.ctree, testset) 


> train.ctree.prob = 1- unlist(treeresponse(train.ctree, 
testset), use.names-F) [seq(1,nrow(testset)*2,2)] 


2) 安装 和 导入 ROCR 包 : 
> install.packages("ROCR") 
> require (ROCR) 


3) 根据 概率 生成 ROCR 预 测 对 象 : 


> train.ctree.prob.rocr = prediction(train.ctree.prob, 
testset$Survived) 


4) 准备 好 ROC 曲 线 的 ROCR 性 能 对 象 (tpr-true positive rate, fpr-false positive rate) ， 计 算 曲 线 下 面积 (AUC) : 
> train.ctree.perf = performance(train.ctree.prob.rocr, 
n tpr n P wm fpr n ) 


> train.ctree.auc.perf =  performance(train.ctree.prob.rocr, 
measure - "auc", x.measure - "cutoff") 


5) 绘制 ROC 曲 线 ，colorize 参 数 设 置 为 TRUE， 标 出 AUC 值 作为 标题 。 


> plot(train.ctree.perf, col-2,colorize-T, main-paste("AUC:", 
train.ctree.auc.perfQy.values)) 


AUC: 0.857455044955045 
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预测 模型 的 ROC 曲 线 
3. 原 理 
我 们 首先 依据 概率 矩阵 生成 预测 对 象 ， 然 后 准备 ROC 曲 线 所 需 的 ROCR 性 能 对 象 (tpr=true positive rate, fpr-false positive rate) 以 及 AUC 值 。 最 后 ， 我 们 使 用 绘图 函数 来 画 出 ROC 曲 线 。 
在 ROC 曲 线 中 ， 曲 线 下 面积 越 大 (AUC=1 预 测 效果 最 优 ) ， 模 型 的 预测 准确 度 越 高 。 样 例 中 的 模型 ROC 的 AUC 值 为 0.857， 这 说 明 简 单 的 条 件 推理 树 能 够 非常 好 地 预测 出 乘客 的 逃生 概率 。 
4. 参 考 
更 多 有 关 ROCR 的 内 容 ， 请 参考 以 下 文档 : 


Sing, T., Sander, O., Berenwinkel, N.and Lengauer, T. (2005) .ROCR: visualizing classifier performance in R.Bioinformatics, 21 (20) , 3940-3941. 


第 3 章 R 和 统计 


3.1 简介 


作为 统计 语言 s 的 后 来 者 ，R 语 言 已 经 成 为 该 领域 内 一 种 颇 受 欢迎 的 计算 语言 ， 同 时 又 因为 人 们 在 不 断 地 对 其 进行 更 新 ， 每 当 出 现 一 类 新 的 统计 方法 ， 就 会 有 人 提供 该 方法 的 R 实 现 ， 因 此 大 量 的 统计 方 
法 能 够 应 用 R 语 言 被 实现 。 


在 运用 这 些 方法 之 前 ， 我 们 可 以 将 它们 分 成 描述 性 统计 和 推理 性 统计 两 类 : 
* 描述 性 统计 : 常用 于 对 数据 整体 特征 的 概括 总 结 ， 用 户 可 以 使 用 平均 数 以 及 标准 差 来 刻画 数值 型 数据 的 特征 ， 并 使 用 频 度 和 百分比 等 概念 来 描述 类 别 型 数据 。 


.推理 性 统计 : 由 样本 数据 模式 用 户 可 以 推理 得 到 总 体 数 据 特 征 ， 与 推理 性 统计 相关 的 方法 包括 假设 检验 、 数 据 估 算 、 数 据 相 关 性 和 关联 性 建 模 。 推 理性 统计 可 以 进一步 扩展 到 对 研究 中 的 对 象 进行 预 
言 、 预 测 和 估算 。 


在 接 下 来 的 小 节 中 ， 我 们 将 对 包括 数据 采样 、 概 率 分 布 、 一 元 描述 统计 分 析 、 多 元 相关 分 析 、 多 元 线性 回归 分 析 、 二 项 检验 、t 检 验 、Kolmogorov-smirnov 检 验 、Wilcoxon 秩 和 检验 及 Wilcoxon 符 号 
秩 检验 、 皮 尔 森 卡 方 检 验 、 单 因素 方差 分 析 以 及 双 因 素 方差 分 析 等 方法 展开 探讨 。 


第 3 草 ”R 和 统计 


3.1 简介 


作为 统计 语言 的 后 来 者 ，R 语 言 已 经 成 为 该 领域 内 一 种 颇 受 欢迎 的 计算 语言 ， 同 时 又 因为 人 们 在 不 断 地 对 其 进行 更 新 ， 每 当 出 现 一 类 新 的 统计 方法 ， 就 会 有 人 提供 该 方法 的 R 实 现 ， 因 此 大 量 的 统计 方 
法 能 够 应 用 R 语 言 被 实现 。 


在 运用 这 些 方法 之 前 ,我 们 可 以 将 它们 分 成 描述 性 统计 和 推理 性 统计 两 类 : 
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C 描述 性 统计 : 常用 于 对 数据 整体 特征 的 概括 总 结 ， 用 户 可 以 使 用 平均 数 以 及 标准 差 来 刻画 数值 型 数据 的 特征 ， 并 使 用 频 度 和 百分比 等 概念 来 描述 类 别 型 数据 。 


方 检验 、 单 因素 方差 分 析 以 及 双 因素 方差 分 析 等 方法 展开 探讨 。 


3.2 “理解 R 中 的 数据 来 样 


. 推理 性 统计 : 由 样本 数据 模式 用 户 可 以 推理 得 到 总 体 数据 特征 ， 与 推理 性 统计 相关 的 方法 包括 假设 检验 、 数 据 估算 、 数 据 相 关 性 和 关联 性 建 模 。 推 理性 统计 可 以 进一步 扩展 到 对 研究 中 的 对 象 进行 巴 


在 接 下 来 的 小 节 中 ， 我 们 将 对 包括 数据 采样 、 概 率 分 布 、 一 元 描述 统计 分 析 、 多 元 相关 分 析 、 多 元 线性 回归 分 析 、 二 项 检验 、t 检 验 、Kolmogorov-Smirnov 检 验 、Wilcoxon 秩 和 检验 及 Wilcoxon 


符号 
1. 准 备 
读者 需 确 保 已 经 准备 好 R 环 境 。 
2. 操 作 


采样 是 从 统计 样本 空间 中 选择 部 分 数据 子 集 的 方法 ， 通 过 样本 数据 可 以 推断 整体 数据 特征 。 本 节 将 探讨 在 R 中 进行 数据 采样 的 方法 。 


执行 以 下 操作 完成 并 理解 R 中 的 数据 采样 : 


1) 可 以 简单 调用 sample 函 数 来 生成 给 定数 据 集 的 样本 : 


> sample(1:10) 


2) 可 以 通过 设置 size 参 数 的 值 来 控制 返回 样本 子 集 的 规模 : 


> sample(1:10, 


size = 5) 

3) 将 replace 参 数 的 默认 值 (默认 值 为 FALSE) 改 为 TRUE， 还 可 以 进行 伯 努 利 (Bernoulli) 试验 : 
> sample(c(0,1), 10, replace = TRUE) 
3. 原 理 

1 的 样本 值 ) 。 


44r fi 


FE 


AIRSET, sample&RZim] AMEE EE RERE, BAARS Esie AAEREN. SuESreplace&ii (Eri B7JTRUE, MEATA (NEA 
REITEBJELVRESE f sample. intg 


整数 集 进 行 采样 ， 基 


参数 n 和 size 都 必须 设置 为 整数 : 
> sample.int(20, 


12) 


3.3 ”在 R 中 控制 概率 分 布 


概率 分 布 和 统计 分 析 彼 此间 有 着 紧密 的 关联 。 相 对 统计 分 析 而 言 
1. 准 备 


， 统 计 学 家 一 般 基于 某 个 样本 空间 给 出 预测 ， 而 该 样本 集 通常 都 会 符合 某 个 
由 于 大 多 数 分 布 函数 都 源 自 stats 包 ， 读 者 必须 确保 已 经 安装 和 导入 了 stats 包 。 
2. 操 作 


合 之 前 试验 假设 的 概率 分 布 ， 其 预测 结果 往往 不 可 用 。 换 句 话说 也 就 是 ， 概 率 为 统计 提供 了 依据 。 接 下 来 的 样 例 将 展示 如 何在 R 中 生成 某 种 概率 分 布 。 
NT 
执行 以 下 操作 : 


特定 概率 分 布 。 因 此 ， 如 果 我 们 发 现 所 选择 的 样本 集 并 不 符 
1) 可 以 调用 dnorm 遂 数 来 生成 正 态 分 布 数据 集 


该 函数 将 返回 正 态 曲线 在 零点 的 
> dnorm(0) 


的 高 度 : 
[1] 0.3989423 
2) 可 以 调整 平均 值 和 标准 差 这 两 个 参数 的 值 : 


> dnorm(0,mean=3,sd=5) 


[1] 0.06664492 


3) 调用 curve 函 数 绘制 正 态 分 布 曲线 : 


> curve (dnorm,-3,3) 
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标准 正 态 分 布 曲线 


4) 与 dnorm 返 回 正 态 曲 线 高 度 值 相 反 ，pnorm 函 数 返 回 的 是 给 定数 据 值 下 曲线 的 面积 : 


> pnorm(1.5) 
[1] 0.9331928 


5) 相应 地 ， 可 以 将 lowertail 参 数 定 为 FALSE， 将 获得 给 定数 据 值 之 上 曲线 的 面积 : 


> pnorm(1.5, lower.tail-FALSE) 
[1] 0.0668072 


6) BILJiFBcurveeSZX, 绘制 pnorm 图 : 


» curve(pnorm(x), -3,3) 





累积 密度 函数 (pnorm) 


7) 可 以 调用 qnorm 函 数 来 计算 给 定 分 布 的 分 位 数 。 我 们 可 以 将 qnorm 遂 数 看 成 pnorm 遂 数 的 逆 操 作 ， 它 将 返回 给 定 概 率 的 z 分 数 。 
> qnorm(0.5) 
[1] 0 
> qnorm(pnorm(0)) 
[1] 0 
8) 可 以 调用 rnorm 遂 数 生成 服从 正 态 分 布 的 随机 数 ， 并 指定 随机 数 的 数量 。 同 样 ， 也 可 以 选择 性 地 指定 一 些 人 参数， 如 均值 和 标准 差 : 


> get.seed(50) 
> x = rnorm(100,mean=3,sd=5) 


> hist(x) 


Histogram of x 
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正 态 分 布 的 直方 图 


9) 可 以 调用 runif 函 数 生 成 符合 均匀 分 布 的 随机 数 。 通 过 指定 最 小 值 和 最 大 值 等 参数 ， 来 确定 随机 数 的 范围 。 在 样 例 中 ， 我 们 生成 了 0~ 5 之 间 的 100 个 随机 数 : 


> set.seed(50) 
> y = runif(100,0,5) 
> hist (y) 


Histogram of y 


Frequency 








均匀 分 布 的 直方 图 


10) 最 后 ， 如 果 我 们 希望 检验 数据 的 正 态 性 ， 可 以 采用 最 通用 的 Shapiro-Wiks 检 验 。 这 里 ， 我 们 将 展示 对 符合 正 态 及 均匀 分 布 的 样 例 集 分 别 进 行 正 态 检验 的 过 程 : 


> Sshapiro.test(x) 


Shapiro-Wilk normality test 


data: x 
W = 0.9938, p-value = 0.9319 
> shapiro.test (y) 


Shapiro-Wilk normality test 


data: y 
W = 0.9563, p-value = 0.002221 


3. 原 理 


本 节 首 先 介绍 了 概率 密度 函数 dnorm， 该 函数 将 返回 给 定 正 态 曲 线 的 高 度 值 ， 我 们 也 可 以 指定 一 些 简单 的 输入 参数 值 ， 如 标准 分 位 数 或 z 分 数 。 如 果 不 指定 任何 参数 ， 正 态 曲线 默认 均值 为 0， 标 准 差 为 
1。 我 们 接着 分 别 介绍 了 三 种 生成 标准 及 正 态 分 布 数据 集 的 方法 。 


然后 ， 我 们 介绍 了 pnorm 函 数 ， 该 函数 为 累积 密度 函数 ， 能 够 返回 曲线 在 给 定数 值 下 的 面积 。 此 外 ，pnorm 函 数 也 可 以 计算 给 定 正 态 分 布 的 p 值 。 我 们 可 以 通过 将 数量 减 去 1 得 到 p 值 ， 也 可 以 通过 将 
lowertail 参 数 设 置 为 TRUE 得 到 p 值 ， 同 样 ， 也 可 以 使 用 plot 函 数 来 绘制 累积 密度 。 


与 pnorm 相 反 ，qnorm 函 数 将 返回 给 定 概 率 的 z 分 数 。 相 应 地 ， 样 例 也 展示 了 应 用 qnorm 遂 数 和 pnorm 遂 数 将 能 够 确定 输入 参数 的 值 。 


接 下 来 ， 我 们 探讨 了 如 何 使 用 rnorm 遂 数 从 给 定 正 态 分 布 生成 随机 样本 ， 以 及 使 用 runif 遂 数 从 给 定 均匀 分 布 生成 随机 样本 。 我 们 必须 指定 rnorm 遂 数 产生 的 随机 样本 个 数 ， 以 及 其 他 可 调整 的 参数 值 ， 
如 均值 和 标准 差 。 调 用 hist 浮 数 可 以 画 出 步骤 3) 中 的 钟 形 曲线 。 另 一 方面 ， 在 指定 runif 水 数 的 最 大 值 和 最 小 值 后 ， 可 获得 在 这 两 个 值 中 间 的 随机 数列 。 同 样 也 可 以 使 用 hist 函 数 绘制 样本 ， 从 输出 结果 可 以 
看 出 ， 概 率 分 布 并 不 是 一 个 钟 形 曲线 ， 这 说 明 样本 并 不 符合 正 态 分 布 。 


最 后 ， 我 们 对 如 何 使 用 Shapiro-Wilks 检 验 判 断 数 据 的 正 态 性 进行 了 探讨 。 本 节 对 符合 正 态 和 均匀 分 布 的 样本 数据 都 分 别 进行 了 正 态 性 检验 。 从 两 个 输出 结果 中 可 以 获得 p 值 。 根 据 p 值 的 大 小 可 以 判断 
样本 是 否 来 自 正 态 分 布 。 如 果 p 值 大 于 0.05， 则 说 明 样 本 服从 正 态 分 布 ; 而 如 果 p 值 小 于 0.05， 则 意味 着 样本 并 不 符合 正 态 分 布 。 


4. 扩 展 


息 : 


Dil 


除了 正 态 分 布 之 外 ， 我 们 还 可 以 通过 R 的 内 置 函数 来 获得 t 分 布 、 二 项 分 布 以 及 卡 方 分 布 。 我 们 可 以 调用 help 遂 数 来 获得 更 多 人 


“ t 分 布 : 
> help(TDist) 
* 二 项 分 布 : 


>help (Binomial) 


»help(Chisquare) 


如 果 和 希望 了 解 更 多 有 关 分 布 的 内 容 ， 读 者 可 以 访问 带 关 键 字 distributions 的 help 函 数 获得 所 有 相关 信息 : 


> help(distributions) 


3.4 在 R 中 进行 一 元 摘 述 统计 

一 元 描述 统计 是 最 简单 的 一 种 定性 分 析 方 法 ， 它 也 是 简单 形式 的 定量 分 析 。 本 节 将 介绍 一 些 用 于 描述 单 变 量 的 基本 函数 。 
1. 准 备 

由 于 需要 对 样本 数据 进行 描述 统计 ， 因 此 我 们 使 用 内 置 的 mtcars 数 据 作为 样 例 数据 集 。 


2. 操 作 


执行 以 下 操作 : 


1) 将 mtcars 数 据 集 导入 名 为 mtcars 的 数据 框架 中 。 


> data í(mtcars) 
2) 为 了 确定 向 量 范围 ， 调 用 range 函 数 返回 向 量 的 下 界 和 上 界 。 


> range (mtcars$mpg) 


[1] 10.4 33.9 
3) 计算 变量 长 度 : 
> length (mtcars$mpg) 
[1] 32 
4) 获得 mpg 均 值 : 


> mean (mtcars$mpg) 


[1] 20.09062 
5) 获得 输入 向 量 的 中 位 数 : 
> median(mtcars$mpg) 
DIT T9: 
6) 获得 输入 向 量 的 标准 差 : 


> sd(mtcars$mpg) 
[1] 6.026948 


7) 获得 输入 向 量 的 方差 : 
> var(mtcars$mpg) 
[1] 35.3241 
8) 也 可 以 通过 计算 标准 差 的 平方 得 到 方差 : 
> sd(mtcars$mpg) ^ 2 
[1] 36.3241 
9) 计算 四 分 位 差 (Interquartile Range, IQR) : 
> IQR (mtcars$mpg) 
LJ] 7.4375 


10) 计算 分 位 数 : 


> quantile (mtcars$mpg,0.67) 
67% 
21.4 


11) 计算 输入 向 量 的 最 大 值 : 


> max(mtcars$mpg) 


[I] 33.3 


12) 计算 输入 向 量 的 最 小 值 : 


> min(mtcars$mpg) 


[1] 10.4 
13) 获得 一 个 元 素 逐 项 增 大 的 向 量 : 


> cummax (mtcarssmpg) 


IA] Z1.:0 2170 22.8 228 .22.B8 22.8 220 44.4 24.4 24.9 24.4 24.4 
24.4 24.4 24.4 24.4 


[I7] 24.4 32,4 32.4 33.9 33.9 33,59 33.9 323.9 33.9 332,9 331.9 33.9 
BO RUM Sy qui 


14) 获得 一 个 元 素 逐 项 减 小 的 向 量 : 


> cummin (mtcars$mpg) 


LED ZL.U 21.0 ZL.U 21.0 28.7 225.1 24,5 214.3 214,3 14.3 214.39 14.3 
14.3 14.3 10.4 10.4 


[17] 10.4 10.4 10.4 10.4 10.4 10.4 10.4 10.4 10.4 10.4 10.4 10.4 
10.4 10.4 10.4 10.4 


15) 调用 summary 函 数 ， 输 出 数据 集 的 特征 信息 : 
> summary (mtcars) 
16) 将 mtcars 包 的 cyl 作 为 样 例 来 展示 类 别 数 据 频数 计算 方法 : 


> table(mtcars$cyl) 


4 6 8 
11 7 14 


17) 调用 stem 绘 制 数据 形状 ， 以 获取 数值 数据 的 频数 信息 ，stem 函 数 将 输出 给 定数 据 的 茎 叶 图 : 


> stem(mtcars$mpg) 


The decimal point is at the | 


10 | 44 
12 | 3 
14 | 3702258 
16 | 438 
18 | 17227 
20 | 00445 
22 | 88 

24 | 4 

26 | 03 

28 | 

30 | 44 

32 | 49 


18) 调用 ggplot 包 提供 的 直方 图 绘制 相应 的 葵 叶 图 : 


> library(ggplot2) 
> gqplot (mtcarss$mpg, binwidth=2) 


mm 


aL. a 


mtcars$mpg 





mtcats 中 mpg 的 直方 图 


3. 原 理 


单 变量 描述 统计 能 够 生成 数据 集 的 频数 分 布 信息 ， 被 用 于 描述 数据 中 比较 明显 的 模式 以 及 变量 的 特征 ， 以 便 用 户 能 够 从 整体 角度 获得 对 数据 的 更 好 理解 。 单 变量 描述 统计 还 能 够 提供 对 数据 分 布 的 集中 
趋势 以 及 个 别 样本 倾斜 度 的 信息 。 因 此 ， 我 们 经 常 可 以 看 见 单 变量 描述 统计 被 用 于 数据 处 理 的 最 初 阶段 。 


为 完成 数据 处 理 ， 我 们 首先 导入 数据 集 mtcars 到 R 的 会 话 中 ， 然 后 使 用 了 range、length、mean、median、sd、var、IQR、guantile、min、max、cumin 以 及 cumax 函 数 来 获得 对 于 数据 mpg 属 性 
的 描述 性 统计 ， 再 使 用 ummary 函 数 来 获取 有 关 mtcars 数 据 集 的 特征 信息 。 


接 下 来 ， 我 们 计算 得 到 类 别 数据 (cyl) 的 频 度 信息 。 如 果 要 获得 数值 数据 的 频 度 信 息 ， 我 们 可 以 使 用 茎 叶 图 来 展现 数据 的 整体 分 布 。 最 后 ， 我 们 将 bindwidth 参 数 设置 为 2 绘制 得 到 一 个 与 葵 叶 图 类 似 的 
直方 图 。 


4. 扩 展 


对 单 变量 描述 统计 一 个 常见 的 应 用 是 找 出 向 量 的 模式 ，R 没 有 提供 内 置 函数 来 帮助 用 户 发 现 数据 模式 ， 不 过 ,我们 还 是 可 以 使 用 mode 水 数 来 完成 这 一 过 程 : 


> mode = function(x) ( 


+ temp = table(x) 


+ names(temp) [temp == max(temp)] 
Pg 


当 mode 函 数 被 应 用 到 向 量 mtcars$mpg 上 时 ， 我 们 可 以 得 到 给 定向 量 的 最 频繁 出 现 的 数值 或 类 别 : 


- om 8RLL,2,3,3,3,.4,4, 5, 5,8, 8] 
> mode (x) 


[1] "3n "n5 


3.5 ”在 R 中 进行 多 元 相关 分 析 
如 果 要 分 析 多 于 两 个 变量 之 间 的 关系 ， 我 们 可 能 需要 实施 多 元 相关 分 析 来 比较 因子 之 间 的 差别 ， 多 元 相关 分 析 也 避免 了 仅 使 用 单个 变量 对 分 析 结 果 带 来 的 负面 影响 。 本 节 将 展示 使 用 相关 矩阵 和 协 方差 
矩阵 来 进行 多 元 相关 分 析 统 计 的 过 程 。 
1. 准 备 
读者 需要 确保 在 R 会 话 中 已 经 将 mtcars 数 据 集 导 入 数据 框架 中 。 
2 探 作 
执行 以 下 操作 : 


1) 这 里 ， 我 们 调用 cov 函 数 计 算 mtcars 数 据 框架 的 前 三 个 变量 的 协 方差 矩阵 : 


> cov (mtcars [1:3]) 


mpg cyl disp 
mpg 36.324103 -9.172379 -633.0972 
cyl -9.172379 3.189516 199.6603 


disp -633.097208 199.660282 15360.7998 
2) 我 们 调用 cor 函 数 来 计算 mtcars 数 据 框 架 的 前 三 个 变量 的 相关 矩阵 : 


» cor(mtcars[1:3]) 

mpg cyl disp 
mpg 1.0000000 -0.8521620 -0.8475514 
cyl -0.8521620 1.0000000 0.9020329 
disp -0.8475514 0.9020329 1.0000000 


3. 原 理 


本 节 探 讨 了 如 何 应 用 相关 和 矩 阵 和 协 方差 矩阵 来 发 现 多 元 变量 间 的 相关 性 。 


我 们 首先 计算 得 到 mtcars 前 三 个 变量 的 协 方差 矩阵 。 协 方差 可 以 检测 变量 间 线 性 相关 度 ， 因 此 ， 当 协 方差 为 正 时 (如 变量 cyl 和 mpg) ， 说 明 两 个 变量 是 线性 正 相关 的 。 相 反 ， 如 果 协 方差 为 负数 (如 
mpg 和 disp) ， 说 明 两 个 变量 是 线性 负 相关 的 。 不 过 ， 由 于 不 同 数据 集 的 差异 ， 一 些 数 据 集 之 间 的 协 方差 值 是 不 可 比较 的 。 因 此 ， 如 果 我 们 想 要 比较 不 同 数据 集 的 两 个 变量 的 线性 相关 程度 ， 首 先 应 该 进行 


规范 化 处 理 ， 并 选择 相关 系数 而 非 协 方差 。 
紧 接着 ， 我 们 调用 了 cor 函 数 计算 mtcars 数 据 集 前 三 个 变量 的 相关 系数 矩阵 。 在 相关 系数 矩 孟 中 ， 数 值 大 小 说 明了 两 个 变量 相关 程度 的 大 小 。 如 果 变 量 与 自己 的 相关 系数 值 为 1， 说 明 该 变量 与 自己 是 正 


相关 的 。 变 量 cyl 和 mpg 的 相关 系数 为 -0.85， 说 明 这 两 个 变量 之 间 存 在 很 强 的 负 相 关 性 。 而 另 一 方面 ， 变 量 disp 和 cyl 的 相关 性 系数 为 0.9， 说 明 这 两 个 变量 之 间 有 可 能 存在 很 强烈 的 正 相关 性 。 
4. 扩 展 
我 们 还 可 以 使 用 ggplot 包 来 绘制 相关 系数 和 矩阵 的 热力 图 : 


> library(reshape2) 


> qplot (x=Varl, yszVar2, data-zmelt(cor(mtcars[1:3])), fill-value, 
geom-"tile") 





相关 系数 矩阵 的 热力 图 


3.6 ”进行 多 元 线性 回归 分 析 

线性 回归 分 析 可 用 于 评估 独立 及 非 独立 变量 间 的 关联 性 。 本 节 将 探讨 如 何在 多 元 分 析 中 应 用 线性 回归 技术 。 
1. 准 备 

确保 在 R 会 话 中 已 经 将 mtcars 数 据 集 导 入 数据 框 中 。 


2. 操 作 
执行 以 下 操作 : 
1) 调用 Im 函数 将 变量 装 入 线性 模型 中 : 
> lmfit = lm(mtcars$mpg ~ mtcars$cyl) 
> lmfit 


Call: 


lm(formula = mtcars$mpg ~ mtcars$cyl) 


Coefficients: 
(Intercept) mtcars$cyl 
37.885 -2.876 


2) 调用 summary 函 数 获 得 模型 的 特征 信息 : 


> summary (lmfit) 


Call: 


lm(formula = mtcars$mpg ~ mtcars$cyl) 
Residuals: 
Min 10 Median 3Q Max 


-4.9814 -2.1185 0.2217 1.0717 27.5186 


Coefficients: 


Estimate Std. Error t value 
(Intercept) 37.8846 2.0738 18.27 
mtcars$cyl -2.8758 0.3224 -8.92 


Signif. codes: O '***' 0.001 '**' 0.01 


Pr(»|t|) 


« 2e-16 *** 


6.11e-10 *** 


For 


0.05 


EMI 


Residual standard error: 3.206 on 30 degrees of freedom 


3) 调用 anova 函 数 完 成 方差 表 分 析 : 


Multiple R-squared: 0.7262, Adjusted R-squared: 0.7171 
F-statistic: 79.56 on 1 and 30 DF, p-value: 6.113e-10 
» anova(lmfit) 
Analysis of Variance Table 
Response: mtcars$mpg 
Df Sum Sq Mean Sq F value Pr (>F) 
mtcars$cyl 1 817.71 3817.71 279.561 6.113e-10 *** 
Residuals 30 308.33 10.28 
Sionit.: .codea: 0 TFSF! p001 "Sa Od SW 0.05 Tu" Dl 


4) 为 了 在 散 点 图 中 展示 出 两 个 变量 之 间 的 回归 线 ， 我 们 首先 在 坐标 轴 上 绘制 cy 和 mpg， 然 后 调用 abline 遂 数 在 图 上 增加 一 条 回归 线 。 


> lmfit = lm(mtcars$mpg ~ mtcars$cyl) 


> plot(mtcars$cyl, mtcars$mpg) 
» abline(lmfit) 
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cyl 和 mpg 的 回归 关系 
3. 原 理 


本 节 应 用 了 线性 模型 函数 Im 来 构建 两 个 变量 的 线性 模型 ， 获 得 公式 以 及 相关 系数 。 接 下 来 ， 再 应 用 summary 函 数 来 获得 数据 模型 的 详细 信息 (包括 F 统 计量 和 P 值 ) 。 其 中 ，F 统 计 可 用 于 检验 模型 的 统 
计 显著 性 ，F 统 计 可 以 产生 一 个 F 统 计量 ， 该 值 是 模型 的 均 方 和 均 方 误差 的 比值 。 因 此 ， 当 F 统 计量 很 大 时 ， 意 味 着 回归 模型 能 在 较 大 程度 上 解释 整体 方差 。 因 此 ， 我 们 能 够 利用 F 统 计量 接受 或 者 拒绝 所 有 回 
归 系 数 都 等 于 零 这 样 一 个 原 假设 。 换 句 话 而 言 ， 如 果 F 统 计量 很 大 ， 意 味 着 原 假设 是 被 拒绝 的 ， 回 归 模 型 具有 预测 能 力 。 另 一 方面 ， 属 性 的 P 值 能 够 验证 系数 为 零 (对 响应 变量 没有 影响 ) 这 样 一 个 原 假 设 ， 
也 就 是 说 低 P 值 能 拒绝 原 假设 ， 表 明 预 测 值 的 变化 与 响应 变量 的 值 是 相关 的 。 


接 下 来 ， 我 们 调用 了 anova 函 数 对 已 构建 好 的 模型 进行 处 理 ， 计 算得 到 方差 值 。 函 数 输出 结果 是 平方 和 ， 该 值 代 表 了 模型 预测 值 的 变化 大 小 。 更 进一步 地 ， 为 了 以 可 视 化 方式 展现 两 个 变量 之 间 的 相关 
度 ， 我 们 调用 了 abline 消 数 在 包 售 mpg 和 cyl 的 散 点 图 中 增加 了 一 条 回归 线 。 从 后 面 的 图 可 以 很 明显 地 发 现 这 两 个 变量 之 间 是 负 相 关 的 。 


4. 扩 展 


更 多 有 关 线 性 及 非 线 性 回归 分 析 的 内 容 ， 请 参考 本 书 第 4 章 的 内 容 。 


37 ”执行 二 项 分 布 检验 
当 我 们 在 做 某 项 决定 的 时 候 ， 能 够 事先 确定 决策 错误 是 否 可 以 被 控制 或 评估 是 非常 重要 的 。 也 就 是 说 ， 我 们 更 希望 证 明 所 给 出 的 假设 并 不 是 偶然 成 立 ， 而 是 具有 统计 显著 性 。 在 假设 检验 中 存在 两 类 假 
ig: 原 假设 以 及 备 择 假设 (也 被 称 为 研究 假设 ) 。 假 设 检验 的 目的 是 验证 实验 结果 是 否 显著 。 所 以 ， 如 果 备 择 假设 是 可 接受 的 ， 则 通常 原 假设 不 成 立 。 
接 下 来 我 们 将 探讨 一 些 常用 的 统计 检验 方法 ， 我 们 首先 从 在 R 中 执行 一 个 二 项 分 布 检验 开始 。 
1. 准 备 
因为 binom.test 国 数 是 来 源 于 stats 包 ， 所 以 读者 必须 确保 已 经 导入 了 stats 库 。 
2. 操 作 
执行 以 下 操作 : 


假定 我 们 有 一 个 游戏 是 关于 赌 徒 投掷 六 面 仍 子 赢 钱 的 问题 。 其 中 的 规则 规定 ， 赌 徒 能 够 携带 自己 的 仍 子 参加 游戏 ， 而 如 果 有 赌 徒 试图 在 游戏 中 作弊 ， 他 会 使 用 重 一 点 的 蜗 子 来 增加 赢 钱 的 概率 。 因 此 ， 
如 果 我 们 发 现 有 赌 徒 在 315 次 比试 中 赢 了 92 次 ， 就 可 以 通过 建立 精确 的 二 项 分 布 检验 来 判断 其 是 否 作 浆 : 


> binom.test(x-92, n-315, p-1/6) 
Exact binomial test 


data: 92 and 315 


number of successes - 92, number of trials - 315, p-value - 
3.458e-08 


alternative hypothesis: true probability of success is not equal 
to 0.1666667 


95 percent confidence interval: 
0.2424273 0.3456598 

sample estimates: 

probability of success 


0.2920635 


3. 原 理 


二 项 分 布 检验 基于 二 项 分 布 ， 可 估计 出 在 n 次 测试 中 成 功 概率 为 P，P 的 计算 公式 如 下 : 


式 中 ，X 代 表 随 机 变量 ， 是 我 们 感 兴趣 的 数字 出 现 的 次 数 ，n 代 表 试 验 次 数 ; k 代 表 试 验 成 功 的 次 数 ; p 为 试验 成 功 的 概率 ;q 代 表 试验 失败 的 概率 。 

当 我 们 计算 得 到 概率 P 以 后 ， 就 可 以 执行 一 个 显著 性 检验 来 确定 成 功 的 概率 是 否 与 我 们 的 期 望 值 相似 ， 如 果 两 个 概率 值 不 相同 ， 我 们 就 可 以 拒绝 原 假 设 。 

通过 定义 可 知 ， 原 假设 是 存在 质疑 的 观点 或 者 是 对 等 待 验证 的 分 布 参数 的 某 种 推断 ， 人 们 常用 Ho 来 表示 原 假设 ， 而 备 择 假 设 是 由 样本 值 区 间 表 示 的 ， 不 包括 在 原 假设 中 ， 常 用 H1 代 表 。 在 样 例 中 ， 原 假 
设 和 备 择 假设 分 别 表 示 为 : 

| Ho ( 原 假设 ) : 没 作弊 情况 下 成 功 的 概率 与 期 望 值 相同 。 

"H, ( 备 择 假设 ) : 没 作 次 情况 下 成 功 的 概率 与 期 望 值 不 等 。 


我 们 通过 样 例 ， 探 讨 了 如 何 使 用 二 项 分 布 检验 确定 了 货 子 投掷 次 数 、 投 出 6 点 的 频数 ， 以 及 在 不 作 闲 的 情况 下 投 出 6 点 的 概率 。t 检 验 结果 显示 p 值 为 3.548e-08 ( 低 于 0.05) 。 如 果 显著 性 水 平 为 0.05， 则 
原 假设 (山子 没 问 题 ) 不 成 立 ， 因 为 这 个 赌 徒 成 功 投 出 6 的 次 数 太 高 了 (已 经 达到 了 0.2920635) , 


4 扩展 


如 果 需 要 了 解 更 多 二 项 分 布 检验 的 内 容 ， 可 以 调用 help 函 数 访问 相关 文档 : 


> ?binom.test 


38 执行 t 检 验 


单 样本 t 检 验 可 以 帮助 我 们 测试 两 个 均值 是 否 存在 显著 性 差异 ; 双 样 本 t 检 验 可 以 用 来 测试 两 组 独立 的 数据 集 其 均值 是 否 不 同 。 本 节 将 探讨 如 何 使 用 R 分 别 完 成 单 样本 及 双 样 本 的 t 检 验 。 
1. 准 备 

读者 需要 确认 已 经 在 R 会 话 中 将 mtcars 导 入 数据 框 ， 又 因为 ttest 函 数 在 stats 包 里 面 ， 所 以 还 需要 确认 已 经 装载 了 stats 库 。 
2. 操 作 

执行 以 下 操作 : 


1) 首先 完成 属性 的 可 视 化 处 理 ， 在 盒 图 中 分 别 展 示 mpg 和 am 两 个 属性 的 差别 : 


> boxplot(mtcars$mpg, mtcars$mpg[mtcars$am--0], ylab = "mpg", name 
s-zc("overall","automobile")) 


> abline(hzmean(mtcars$mpg),lwd-2, col-"red") 


> abline(h2zmean(mtcars$mpg[mtcars$am--0]),1wd-2, col="blue") 





overall automobile 





整体 样本 空间 及 汽车 类 型 样本 的 mpbg 属 性 使 图 


2) 执行 统计 分 析 来 验证 汽车 类 型 样本 的 mpg 均 值 是 否 低 于 总 样本 的 mpg 均 值 : 


> mpg.mu = mean (mtcars$mpg) 
> mpg am = mtcars$mpg[mtcars$am == 0] 


> t.test (mpg am,mu = mpg .mu) 


One Sample t-test 


data: mpg am 
t = -3.3462, df = 18, p-value = 0.003595 
alternative hypothesis: true mean is not equal to 20.09062 
95 percent confidence interval: 
15.29946 18.99528 
sample estimates: 


mean of x 


17.14737 


3) 采用 盒 图 绘制 分 析 结果 : 


»boxplot (mtcars$mpg-mtcars$am,ylab-'mpg',names-c('automatic','manu 
al')) 


> abline(hzmean(mtcars$mpg[mtcars$am--0]),lwd-2, col-"blue") 


> abline(hzmean(mtcars$mpg[mtcars$am--1]),lwd-2, col-"red") 


automatic manual 





自动 档 及 手动 档 汽车 mpg 金 图 


4) 接 下 来 的 分 析 结 果 展 示 了 自动 档 汽 车 的 mpg 均 值 要 低 于 手动 档 卡 车 的 mpg 均 值 : 


> t.test(mtcars$mpg-mtcars$am) 


Welch Two Sample t-test 


data:  mtcars$mpg by mtcars$am 

t = -3.7671, df = 18.332, p-value = 0.001374 

alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 


-11.280194 -3.209684 


sample estimates: 
mean in group 0 mean in group 1 


17.14737 24.39231 


3. 原 理 
t 检 验 当 原 假设 为 真 时 ， 其 检验 统计 结果 将 服从 正 态 分 布 (t 分 布 ) ， 人 们 常用 t 检 验 来 判断 两 个 独立 的 数据 集 之 间 的 差异 性 ，t 检 验 最 适合 基于 小 样本 问题 。 


本 节 分 别 探讨 了 单 样 本 t 检 验 以 及 双 样 本 t 检 验 两 种 方法 。 在 单 样本 t 检 验 中 ，“ 人 们 常会 产生 的 问题 是 样本 的 平均 值 是 否 与 原 假设 不 同 ? ”， 因 此 ， 为 了 测试 汽车 的 mpg 均 值 是 否 低 于 总 体 样 本 的 mpg 均 
值 ， 我 们 首先 采用 了 盒 图 绘制 出 没有 任何 假设 前 提 下 两 个 样本 集 之 间 的 差别 。 从 输出 结果 图 可 以 很 明显 地 看 出 ， 汽 车 样本 的 mpg 均 值 (BERR) 低 于 总 体 样 本 的 mpg 均 值 (红色 线段 ) 。 接 下 来 ， 我 们 使 
用 了 单 样本 t 检 验 ， 得 到 的 结果 p 值 (0.003595) 小 于 0.05， 这 说 明 有 关 汽 车 的 mpg 均 值 小 于 总 体 样本 的 mpg 均 值 的 原 假设 不 成 立 。 


单 样本 t 检 验 可 以 判断 两 个 均值 是 否 存在 显著 性 差异 ， 双 样本 t 检 验 可 以 判断 两 个 独立 的 数据 集 是 否 不 同 。 与 单 样本 t 检 验 过 程 类 似 ， 我 们 首先 也 使 用 了 盒 图 来 展示 样本 空间 的 差异 ， 再 进行 双 样 本 tt 检验。 


从 测试 结果 可 知 ，p 值 等 于 0.01374， 小 于 0.05， 也 就 是 说 ， 有 关 自 动 档 汽车 的 mpg 均 值 与 手动 档 汽 车 的 mpg 均 值 不 等 这 一 原 假设 也 是 不 成 立 的 。 
4. 扩 展 


更 多 有 关 t 检 验 的 使 用 的 参考 ， 可 以 使 用 help 遂 数 浏览 以 下 文档 : 


» ?t.test 


3.9 ”执行 Kolmogorov-Smirnov 检 验 


单 样本 Kolmogorov-Smirnov 检 验 常 被 应 用 于 比较 样本 是 否 符合 某 个 已 知 分 布 ， 而 双 样 本 Kolmogorov-Smirnov 检 验 更 多 的 是 应 用 在 两 个 数据 集 累积 分 布 方面 的 比较 。 本 节 将 展示 在 R 中 执行 


Kolmogorov-Smirnov 检 验 的 过 程 。 
1. 准 备 

读者 需要 将 mtcars 导 入 R 会 话 的 数据 框架 中 ， 同 时 鉴于 ks.test 函 数 也 来 源 于 stats 包 ， 还 必须 先 装载 stats 库 。 
2. 操 作 


执行 以 下 操作 : 


RII 
I 
zs 
Dp 
El 
d 
d 
3t 


1) 使 用 单 样本 Kolmogorov-Smirnov 检 验 来 验证 数据 集 x (由 rnorm 函 数 生 成 
> x = rnorm(50) 
> ks.test(x, "pnorm") 


One-sample Kolmogorov-Smirnov test 


data: x 
D = 0.1698, p-value = 0.0994 


alternative hypothesis: two-sided 


2) 生成 符合 均匀 分 布 的 样本 数据 : 


> set.seed(3) 


> x = runif (n=20, min=0, max-20) 


runif(n-20, min=0, max-20) 


NI 


3) 调用 ecdf 函 数 绘制 样本 数据 ; 


> plot(ecdf(x), do.points = FALSE, verticals-T, xlim-c(0, 20)) 
> lines(ecdf(y), lty=3, do.points = FALSE, verticals-T) 





两 个 数据 样本 的 ecdf 图 


4) 最 后 ， 采 用 双 样 本 Kolmogorov-Smirnov 检 验 来 比较 两 个 数据 组 : 


> ks.test(x,y) 
Two-sample Kolmogorov-Smirnov test 


data: x and y 
D = 0.3, p-value = 0.3356 


alternative hypothesis: two-sided 


3. 原 理 


Kolmogorov-smirnov 检 验 (K-S 检 验 ) 是 一 种 非 参 数 统计 检验 方法 ， 常 被 应 用 于 比较 连续 概率 分 布 间 的 相似 性 。 例 如 ， 用 来 判断 某 个 样本 数据 是 否 符合 已 知 概率 分 布 ( 单 样本 Kolmogorov-Smirnov 
检验 ) ， 或 者 用 于 对 两 个 样本 数据 集 的 直接 比较 ( 双 样 本 Kolmogorov-Smirnov 检 验 ) ， 检 验 基 于 经 验 分 布 国 数 (ECDF) 进行 。 假 设 x1，x2，.…，Xn 是 大 小 为 n 的 随机 样本 ;经 验 分 布 遂 数 Fn (x) 的 定义 


如 下 : 


me 
F(x)=—2 xs xj 


这 里 ，|{xi<X} 是 一 个 指示 函数 ， 如 果 xi<x， 函 数 结果 为 1 否则 ， 函 数 结果 为 0。 
Kolmogorov-Smirnov 统 计量 (D) 是 基于 F (x) 和 Fn (x) 两 者 之 间 的 最 大 垂直 差异 (supx 代 表 上 确 界 ) ， 其 定义 如 下 : 
D-sup.|E, (x) =F (x) | 

其 中 ，Ho 为 符合 给 定 分 布 的 样本 数据 集 ，H1 为 不 符合 给 定 分 布 的 样本 数据 集 。 
如 果 在 显著 性 水 平 下 ，Dn 大 于 由 表 得 到 的 临界 值 ， 那 么 原 假设 Ho 将 被 拒绝 。 


我 们 首先 对 由 正 态 分 布 生 成 的 随机 样本 数据 集 进行 了 测试 ， 在 给 定 显著 性 水 平 为 0.05 的 条 件 下 ，p 值 为 0.0994， 说 明 输 入 数据 符合 正 态 分 布 。 


接 下 来 ,我们 绘制 了 一 个 经 验 累 积分 布 溯 数 (edcf) 图 ， 显 示 得 到 一 个 双 样本 检验 计算 得 到 的 最 大 距离 D (图 中 为 0.3) ， 并 执行 了 双 样 本 Kolmogorov-smirnov 检 验 判断 给 定 的 两 个 输入 数据 集 是 否 服 
从 同一 分 布 。 


结果 得 到 的 p 值 大 于 0.05， 因 此 原 假设 成 立 。 即 这 两 个 数据 集 很 可 能 服从 同一 分 布 。 
4. 扩 展 
有 关 Kolmogorov-Smirnov 检 验 的 更 多 内 容 ， 可 以 使 用 help 函 数 访 问 如 下 文档 : 
> ?ks.test 


关于 经 验 累 积分 布 函 数 的 定义 ， 可 以 参考 以 下 文档 : 


> ?ecdf 


3.10 ”理解 Wilcoxon 秩 和 检验 及 Wilcoxon 符 号 秩 检验 
Wilcoxon 秩 和 及 Wilcoxon 符 号 秩 (Mann-Whitney-Wilcoxon) 检验 是 对 原 假设 的 非 参数 检验 ， 在 不 需要 假设 两 个 样本 空间 都 为 正 态 分 布 的 前 提 下 ， 测 试 它们 的 分 布 是 否 完全 相同 。 本 节 将 探讨 在 R 中 
进行 Wilcoxon 秩 和 及 Wilcoxon 符 号 秩 检验 的 过 程 。 
1. 准 备 
读者 需要 确认 在 当前 的 R 会 话 中 已 经 将 mtcars 数 据 集 导 入 数据 框架 中 ， 同 时 鉴于 wilcox.test 函 数 同样 源 于 stats 包 ， 还 必须 同时 导入 stats 库 。 
2. 操 作 
执行 以 下 操作 : 


1) 调用 boxplot 函 数 绘制 mtcars 数 据 集 特征 : 


> boxplot(mtcars$mpg-mtcars$am,ylab-'mpg',names-c('automatic','man 
ual')) 


automatic manual 





自动 档 及 手动 档 汽车 mpg 值 的 使 图 


2) 执行 Wilcoxon 秩 和 检验 以 验证 自动 档 汽车 和 手动 档 汽车 数据 分 布 是 否 一 致 


> wilcox.test(mpg ~ am, data-mtcars) 


Wilcoxon rank sum test with continuity correction 
data: mpg by am 
W = 42, p-value = 0.001871 


alternative hypothesis: true location shift is not equal to O0 


Warning message: 


In wilcox.test.default(x = c(21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 


cannot compute exact p-value with ties 


3. 原 理 


本 小 节 对 Wilcoxon 秩 和 检验 (也 可 以 被 称 为 Mann-Whitney U 检 验 ) 这 样 一 种 非 参数 检验 方法 进行 了 探讨 。t 检 验 假设 两 个 样本 数据 集 之 间 的 差别 符合 正 态 分 布 〈 当 两 个 样本 集 都 服从 正 态 分 布 时 ，t 检 
验 效 果 最 佳 ) ， 但 当 服 从 正 态 分 布 的 假设 并 不 确定 时 ， 我 们 则 可 以 采取 Wilcoxon 秩 和 检验 来 验证 假设 是 否 成 立 。 


本 节 利 用 Wilcoxon 秩 和 检验 来 验证 数据 集 mtcars 中 自动 档 及 手动 档 汽车 的 mpg 值 的 分 布 是 否 是 一 致 的 。 从 检验 结果 可 知 ，p 值 等 于 0.001871， 小 于 0.05， 因 此 原 假设 不 成 立 。 这 意味 着 样本 中 自动 档 和 
手动 档 汽车 的 mpg 值 分 布 是 不 相同 的 。 当 读者 运行 该 检验 时 ， 有 可 能 收 到 和 警告 信息 “无 法 得 到 准确 的 p 值 ， 因 为 存在 打 结 ”， 这 是 因为 数据 集中 存在 重复 值 ， 一 旦 去 掉 数据 集中 的 重复 值 ， 警 告 就 不 会 再 出 
现 。 


4 扩展 


如 果 希 望 了 解 更 多 有 关 Wilcoxon 秩 和 检验 以 及 Wilcoxon 符 号 秩 检验 的 内 容 ， 可 以 使 用 help 函 数 参 考 以 下 文档 : 


> ? wilcox.test 


3.11 ”实施 皮尔 森 卡 万 检验 


本 节 将 向 读者 介绍 皮尔 森 卡 方 检 验 ， 该 检验 方法 常 被 应 用 于 检查 两 个 数据 集中 的 类 别 变量 分 布 是 否 不 同 。 我 们 将 探讨 在 R 中 实施 皮尔 森 卡 方 检 验 的 过 程 。 
1. 准 备 

读者 同样 需要 确保 已 经 将 mtcars 数 据 集 导入 R 会 话 中 的 数据 框 内 ， 由 于 chisq.test 函 数 源 于 stats 包 ， 确 保 stats 已 被 导入 。 
2. 探 作 

执行 以 下 操作 : 


1) 为 了 生成 计数 表 ， 我 们 首先 由 样本 数据 集中 每 辆 车 的 变速 器 类 别 输入 和 前 驱 齿 轮 个 数 生成 列 联 表 : 


> ftable = table(mtcars$am, mtcars$gear) 
» ftable 
3 4 95 
015 4 0 
1.08 5 


2) 绘制 列 联 表 的 马赛 克 图 : 


> mosaicplot(ftable, main-"Number of Forward Gears Within 
Automatic and Manual Cars", color - TRUE) 


Number of Forward Gears Within Automatic and Manual Car: 





d 


手动 档 和 自动 档 汽 车 前 驱 齿 轮 的 马赛 克 图 示意 


ç 


3) 对 列 联 表 执行 皮尔 森 卡 方 检验 以 检测 自动 档 及 手动 档 汽车 的 前 驱 齿轮 数目 值 是 否 相 同 : 


> chisq.test(ftable) 
Pearson's Chi-squared test 


data: ftable 
X-squared = 20.9447, df = 2, p-value = 2.831e-05 


Warning message: 


In chisq.test(ftable) : Chi-squared approximation may be incorrect 


3. 原 理 


皮尔 森 卡 方 检验 是 一 类 应 用 于 统计 分 析 的 检验 ， 用 以 发 现在 两 个 类 别 变量 之 间 是 否 存 在 某 种 关联 ， 最 适用 于 源 自 大 数据 中 非 成 组 信息 的 检验 。 如 果 你 想 要 使 用 皮尔 森 卡 方 检验 ， 必 须 确保 输入 样本 满足 


MAE 


以 下 两 个 条 件 : 首先 ， 输 入 数据 集 必须 都 是 类 别 数据 ; 其次， 变量 必 须 包括 两 个 或 两 个 以 上 的 独立 数据 组 。 
皮尔 森 卡 方 检验 假设 用 户 拥有 两 个 变量 A 和 B; 其 原 假设 及 备 择 假 设 分 别 为 : 
. Ho: 变量 A 和 变量 B 相 互 独立 。 
OHa: 变量 A 和 变量 B 相 互 不 独立 。 
皮尔 森 卡 方 检 验 通过 以 下 步骤 来 检验 原 假设 是 否 成 立 : 


首先 计算 卡 方 测试 统计 量 X<: 


M 
e 
Qu ms 
S 
v. 
Ms 
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N 
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E 
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这 里 ，[r 为 列 联 表 行 的 个 数 ，c 是 列 联 表 列 的 个 数 ，Oi，j 为 实际 观测 值 的 频数 ，Ei，j 为 期 望 频 数 。df 为 统计 自由 度 ， 定 义 如 下 : 


df= (r-1) X (c-1) 


式 中 ，[ 为 某 变量 的 水 平 数 ，c 为 另 一 变量 的 水 平 数 。 
在 皮尔 森 卡 方 分 布 中 ， 将 根据 自由 度 来 比较 X< 和 | 临界 值 之 间 的 差 值 。 


在 本 节 ， 我 们 借助 列 联 表 和 马赛 克 图 来 展示 数据 值 之 间 的 差异 ， 从 比较 结果 可 以 很 明显 地 发 现 自动 档 汽 车 的 前 驱 齿 轮 数 要 小 于 手动 档 汽 车 前 驱 齿 轮 数 。 


接 下 来 ， 我 们 又 对 列 联 表 进行 皮尔 森 卡 方 检 验 ， 进 一 步 地 判别 究竟 自动 档 和 手动 档 汽车 的 齿轮 数 是 否 相 同 。 输 出 结果 的 p 值 为 2.831e-05 («0.05) ， 因 此 原 假设 不 成 立 。 从 数据 统计 结果 也 可 以 得 到 同 


样 结论 。 不 过 ， 样 例 输出 包含 了 一 个 警告 信息 ， 提 示 我 们 此 次 皮尔 森 卡 方 检验 的 结果 有 可 能 并 不 正确 ， 这 是 因为 在 列 联 表 中 的 样本 个 数 小 于 5。 
4. 扩 展 


更 多 有 关上 皮尔 森 卡 方 检验 的 使 用 方法 ， 请 使 用 help 遂 数 参 考 以 下 文档 : 
> ? chisq.test 


除了 我 们 在 前 述 样 例 中 提 到 的 一 些 常用 的 假设 检验 方法 ，R 还 为 用 户 提 供 了 其 他 假设 检验 的 方法 ， 包 括 : 
“ 百分比 检验 (prop.test) : 用 于 测试 不 同样 本 集 的 百分比 分 布 是 否 一 致 。 
- 乙 检验 (UsingR 包 中 的 simple.z.test) : 比较 样本 均值 与 整体 数据 集 均 值 以 及 标准 偏差 。 
: Bartlett 检 验 (Bartlett.test) : 用 于 测试 不 同 数 据 集 的 方差 是 否 一 致 。 
: Kruskal-Wallis 秩 和 检验 (kruskal.test) : 在 不 确定 多 个 数据 集 是 否 服从 正 态 分 布 的 前 提 下 ， 判 断 这 些 数据 集 的 分 布 是 否 一 致 。 


: Shapiro-Wilkk 检 验 (shapiro.test) : 用 于 正 态 性 检验 。 


3.12 ”进行 单 因素 方 关 分 析 


方差 分 析 (Analysis of Variance, ANOVA) 能 够 找到 类 别 独立 变量 和 连续 非 独立 变量 之 间 的 关联 ， 主 要 被 应 用 于 检验 不 同 数据 集 的 均值 是 否 相同 。 如 果 样 本 中 仪 包含 一 个 类 另 
们 可 以 进行 单 因素 方差 分 析 。 否 则 ， 如 果 存 在 两 个 或 两 个 以 上 的 类 别 变量 ， 就 需要 实施 双 因 素 方 差分 析 。 本 节 将 探讨 在 R 中 如 何 进 行 单 因素 方差 分 析 。 


1. 准 备 

读者 必须 确保 已 经 在 R 会 话 中 将 mtcars 导 入 数据 框架 中 ， 同 时 还 需要 提前 载 入 stats 库 ， 因 为 oneway.test 和 TurkeyHSD 国 数 都 源 于 stats 包 。 
2. 操 作 

执行 以 下 操作 : 


1) 首先 可 视 化 数据 ， 绘 制 数据 使 图 : 


> boxplot(mtcars$mpg-factor(mtcars$gear),xlab-'gear',ylab-'mpg') 


上 变量 作为 独立 变量 ,我 





不 同 前 驱 齿 轮 数 的 mpg 比 较 


2) 接着 ,调用 oneway.test 浮 数 进行 单 因素 方差 分 析 ， 检 测 mpg 均 值 是 否 随 前 驱 齿 轮 数 目的 变化 而 变化 : 


> oneway.test(mtcars$mpg-factor(mtcars$gear)) 


One-way analysis of means (not assuming equal variances) 


data: mtcars$mpg and factor (mtcars$gear) 


F = 11.2848, num df = 2.000, denom df = 9.508, p-value = 0.003085 


3) RT oneway.testžt, iDEA ILAN EEREaoviitf173 2: 23^ : 


> mtcars.aov = aov(mtcars$mpg ~ as.factor(mtcars$gear)) 
» summary (mtcars.aov) 

Df Sum Sq Mean Sq F value Pr (>F) 
as.factor(mtcars$gear) 2 3483.2 241.62 10.9 0.000295 *** 
Residuals 29 642.8 du Ir 


Signif. codes: D '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 


4) aov 函 数 生成 的 模型 也 可 以 以 表 的 形式 输入 摘要 信息 : 


> model.tables(mtcars.aov, "means") 
Tables of means 


Grand mean 


20.09062 


as.factor(mtcars$gear) 
3 4 5 
215,11 24.53 21.438 
rep 15.00 12.00 5.00 


5) 由 aov 模 型 ， 我 们 可 以 使 用 TurkeyHSD 进 行事 后 比较 检验 : 
> mtcars posthoc =TukeyHSD (mtcars.aov) 
» mtcars posthoc 
Tukey multiple comparisons of means 


95% family-wise confidence level 


Fit: aov(formula - mtcars$mpg - as.factor(mtcars$gear)) 


$ as.factor(mtcars$gear) 

diff lwr upr p adj 
4-3 8.426667 3.9234704 12.929863 0.0002088 
5-3 5.273333 -0.7309284 11.277595 0.0937176 
5-4 -3.153333 -9.3423846 3.035718 0.4295874 


6) 进一步 地 ， 我 们 再 调用 plot 函 数 对 均值 之 间 的 差异 进行 可 视 化 处 理 : 


95% family-wise confidence level 
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Differences in mean levels of as factor(mtcarsSgear) 





不 同 齿轮 数 的 样本 组 Turkey 均 值 差别 图 


3. 原 理 


为 了 理解 前 驱 齿 轮 数 不 同 的 小 车 其 mpg 均 值 是 否 会 有 不 同 ， 我 们 首先 绘制 了 不 同 齿 轮 数 组 mpg 的 盒 图 ， 从 图 可 以 简单 看 出 ， 前 驱 齿 轮 数 不 同 的 车 其 mpg 值 不 同 。 然 后 ， 我 们 对 数据 集 进 行 了 最 简单 的 方 
差 检 验 一 一 单 因 素 方差 检验 ， 以 验证 样本 均值 是 否 不 同 。 


R 提 供 了 两 个 方差 分 析 的 函数 : onewaytest 和 aov，onewaytest 函 数 的 优势 在 于 应 用 了 Welch 修 正 以 处 理 变量 的 不 均匀 性 ， 不 过 函数 返回 结果 没有 aov 丰 富 ， 也 不 能 提供 事后 检验 。 所 以 ， 我 们 对 独立 
变量 gear 和 非 独 立 变量 mpg 既 进行 了 oneway.test 处 理 也 调用 了 aov 函 数 。 两 次 检验 所 得 到 的 P 值 都 很 小 ， 即 拒绝 前 驱 齿轮 数 不 同 的 车 其 mpg 均 值 相同 的 原 假设 . 


由 于 方差 分 析 的 结果 仪 仪 告知 我 们 整体 样本 空间 的 mpg 均 值 存在 显著 差异 ， 我 们 并 不 清楚 具体 哪 两 个 样本 集 的 均值 存在 差别 。 因 此 ， 我 们 又 对 方差 分 析 后 的 模型 继续 使 用 TurkeyHSD 事 后 检验 (也 称 为 
多 重 比较 检验 ) ， 从 结果 可 知 ， 前 驱 齿 轮 为 4 的 车 和 前 驱 齿 轮 为 3 的 车 的 差别 最 大 ， 置 信 度 区 间 在 图 中 最 右 端 。 


4 扩展 


方差 分 析 依 靠 F 分 布 作为 概率 分 布 的 依据 ，F-score 为 组 间 方 差 与 组 内 方差 的 比值 。 如 果 整 体 F 检 验 的 显著 性 水 平 较 大 ， 我 们 可 以 进一步 地 进行 事后 检验 (多 重 比较 检验 ) ， 以 评估 不 同 组 之 间 的 差异 大 
小 。 最 常用 的 事后 检验 方法 是 Scheffé 方 法 、Tukey-Kramer 方 法 和 Bonferroni 修 正 。 


为 了 理解 方差 分 析 的 结果 ， 我 们 还 需要 了 解 一 些 术语 的 基本 含义 ， 包 括 : 自由 度 、 总 平方 和 、 组 间 平 方 和 、 误 差 平方 和 、 均 方差 以 及 F- 统 计量 。 如 果 读 者 需要 了 解 更 多 有 关 以 上 术语 的 知识 ， 可 以 参考 
Using multivariate statistics (Fidell, L.S., &Tabachnick, B.G. (2006) Boston: Allyn&Bacon.) 一 书 ， 或 者 参考 维基 有 关 变 量 分 析 的 内 容 : 
(http://en.wikipedia.org/wiki/Analysis of variance£cite ref-31) , 


3.13 ”进行 双 因 素 方差 分析 


双 因 素 方 差分 析 可 以 被 看 成 单 因素 方差 分 析 的 扩展 ， 它 可 以 对 两 个 或 两 个 以 上 的 类 别 变量 进行 分 析 ， 本 节 将 探讨 在 R 中 如 何 实施 双 因素 方差 分 析 。 
1. 准 备 

读者 需要 确保 已 经 将 stats 包 导入 R 会 话 的 数据 框 中 ， 同 样 也 需要 确保 装载 stats 库 ， 因 为 twoway.test 和 TukeyHSD 以 及 interaction.plot 函 数 都 源 于 stats 包 。 
2. 操 作 

执行 以 下 操作 : 

1) 我 们 首先 根据 变速 方式 不 同 ， 绘 制 两 个 盒 图 ， 来 分 析 gear 和 mpg 这 两 个 因素 之 间 的 关联 : 


> par (mfrow=c (1,2)) 


> boxplot(mtcars$mpg-mtcars$gear,subset- (mtcars$am--0),xlab-'ge 
ar', ylab - "mpg",main-'automatic') 

> boxplot (mtcars$mpg-mtcars$gear,subset- (mtcars$am--1),xlab-'ge 
ar', ylab = "mpg", main-'manual') 


automatic 
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不 同 变速 方式 车 辆 的 mpg 和 8geat 人 金 图 
2) 绘制 前 驱 齿 轮 * 变 速 方式 与 npg 关 联 分 析 的 盒 图 ，boxplot 国 数 中 有 操作 符 * 的 使 用 : 
> boxplot(mtcars$mpg-factor (mtcars$gear)* 


factor(mtcars$am),xlab-'gear * transmission', ylab - 
"mpg",main-'Boxplot of mpg by gear * transmission') 


Boxplot of mpg by gear * transmission 











9.0 3.1 


gear * transmission 





mpgZegear* X JE 78 85 s E] 
3) 利用 交互 图 来 表达 变量 之 间 的 关联 : 


> interaction.plot(mtcars$gear, mtcars$am, mtcars$mpg, type-"b", 
calsc(il:3),leg.btys"o", lag.bgs"belge", Ilwds2, bpcbscilB,24,242). 
xlab-"Number of Gears", ylab-"Mean Miles Per Gallon", 
main-"Interaction Plot") 


Interaction Plot 
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4) 对 mpg 及 gear 和 变速 类 型 的 组 合 因素 执行 双 因 素 方差 分 析 : 


> mpg anova2 = aov(mtcars$mpg-factor (mtcars$gear)*factor (mtcars$ 
am)) 


» summary (mpg anova2) 
Df Sum Sq Mean Sq F value Pr (>F) 
factor(mtcars$gear) 2 3483.2 241.62 11.869 0.000185 *** 


factor (mtcars$am) 1 T2.H 72.80 3.576 0.069001 . 
Residuals 28 570.0 20.36 
Hidulr..cogeésé: ^U ESET DIDUL STET QGUL TE 005 *.' D.L trg 


5) 类 似 单 因素 方差 分 析 ， 我 们 可 以 对 双 因 素 方差 分 析 的 结果 进行 事后 比较 检验 : 


> TukeyHSD (mpg anova2) 
Tukey multiple comparisons of means 


95% family-wise confidence level 


Fit: aov(formula = mtcars$mpg ~ factor(mtcars$gear) * 
factor (mtcars$am)) 


$` factor(mtcars$gear) 


AEREE lwr upr p adj 
4-3 8.426667 4.1028616 12.750472 0.0001301 
5-3 5.273333 -0.4917401 11.038407 0.0779791 
5-4 -3.153333 -9.0958350 2.789168 0.3999532 


$ factor (mtcars$am)` 
diff lwr upr p adj 
1-0 1.805128 -1.521483 5.13174 0.2757926 


6) Apot AETIUS : 


> par (mfrowsc(1,2)) 


» plot(TukeyHSD (mpg anova2)) 


95% family-wise confidence level 95% family-wise confidence level 


4 5 6 7 8 9 10 


Differences in mean levels of factor(mtcars$am) Differences in mean levels of factor(mtcars$gear) 





变速 类 型 与 齿轮 数量 均值 级 别 上 的 差异 比较 
3. 原 理 


在 本 节 ， 我 们 采用 双 因素 方差 分 析 来 检验 独立 变量 gear 和 am 对 非 独立 变量 mpg 的 影响 。 我 们 首先 使 用 盒 图 检测 了 齿轮 个 数 以 及 变速 类 型 和 mpg 均 值 之 间 的 关系 ， 然 后 再 利用 交互 图 对 不 同 变速 类 型 的 
车 齿轮 个 数 的 变化 对 mpg 均 值 的 影响 进行 了 可 视 化 处 理 。 


从 结果 图 可 知 ， 齿 轮 个 数 变化 对 mpg 均 值 有 影响 ， 但 不 是 正 相关 的 联系 。 我 们 紧 接 着 又 调用 aov 函 数 实施 了 双 因 素 方差 检验 ， 从 检验 结果 可 知 ，gear 因 素 的 P 值 拒绝 了 原 假 设 ， 但 变速 类 型 没有 拒绝 原 假 
设 。 换 名 话说， 不同 齿轮 个 数 的 小 车 其 mpg 基 本 不 同 。 最 后 ， 为 了 检测 哪 两 个 样本 组 之 间 的 差别 最 大 ， 我 们 还 进行 了 一 次 事后 检验 ， 从 检验 结果 可 知 ， 分 别 带 有 4 个 齿轮 的 小 车 和 带 有 3 个 齿轮 的 小 和 车， 它们 
的 mpg 均 值 相差 最 远 。 


4 扩展 


图 数 manova 适 用 于 多 元 变量 分 析 ， 能 够 用 于 检测 多 元 独立 变量 对 多 元 非 独 立 变量 的 影响 。 在 R 中 更 多 有 关 MANOVA 的 内 容 请 使 用 help 阔 数 参 考 以 下 文档 : 


> ?MANOVA 
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41 简介 


回归 是 一 种 有 监督 的 学 习 方 式 ， 常 用 于 建 模 分 析 一 个 独立 变量 (响应 变量 ) 和 一 个 或 多 个 非 独立 变量 (预测 变量 ) 之 间 的 关联 。 我 们 可 以 借助 回归 来 建立 一 个 预测 模型 ， 基 于 计算 给 定数 据 的 最 小 平方 


误差 来 找到 最 优 匹 配 模型 ， 并 进一步 地 将 该 模型 应 用 到 对 连续 变量 的 预测 。 


回归 分 析 方 法 门类 众多 ， 如 果 模 型 只 包含 一 个 预测 变量 ， 并 且 在 响应 变量 和 预测 变量 之 间 人 存在 线性 关系 ， 则 可 采用 线性 回归 模型 处 理 。 但 如 果 包 含 多 个 预测 变量 ， 则 应 选择 多 重 线性 回归 模型 。 如 果 预 
测 变量 和 响应 变量 之 间 是 非 线 性 关系 ， 我 们 可 以 使 用 非 线性 模型 建 模 。 


本 章 将 介绍 如 何 使 用 Im 函数 建立 数据 的 线性 模型 ， 然 后 对 于 除了 正 态 高 斯 模型 以 外 的 分 布 〈 例 如 泪 松 分 布 或 二 项 分 布 ) ， 将 探讨 使 用 glm 函 数 以 及 合适 的 数据 连接 遂 数 来 描述 数据 分 布 ， 最 后 还 将 介绍 
如 何 使 用 gam 函 数 建立 数据 的 广义 加 性 模型 。 


第 4 章 ”理解 回归 分 析 


41 简介 


回归 是 一 种 有 监督 的 学 习 方 式 ， 常 用 于 建 模 分 析 一 个 独立 变量 (响应 变量 ) 和 一 个 或 多 个 非 独 立 变量 (预测 变量 ) 之 间 的 关联 。 我 们 可 以 借助 回归 来 建立 一 个 预测 模型 ， 基 于 计算 给 定数 据 的 最 小 平方 
误差 来 找到 最 优 匹 配 模型 ， 并 进一步 地 将 该 模型 应 用 到 对 连续 变量 的 预测 。 


回归 分 析 方 法 门类 众多 ， 如 果 模 型 只 包含 一 个 预测 变量 ， 并 且 在 响应 变量 和 预测 变量 之 间 存 在 线性 关系 ， 则 可 采用 线性 回归 模型 处 理 。 但 如 果 包 含 多 个 预测 变量 ， 则 应 选择 多 重 线性 回归 模型 。 如 果 预 
测 变量 和 响应 变量 之 间 是 非 线 性 关系 ， 我 们 可 以 使 用 非 线性 模型 建 模 。 


本 章 将 介绍 如 何 使 用 Im 函数 建立 数据 的 线性 模型 ， 然 后 对 于 除了 正 态 高 斯 模型 以 外 的 分 布 〈 例 如 泊 松 分 布 或 二 项 分 布 ) ， 将 探讨 使 用 glm 函 数 以 及 合适 的 数据 连接 遂 数 来 描述 数据 分 布 ， 最 后 还 将 介绍 
如 何 使 用 gam 函 数 建立 数据 的 广义 加 性 模型 。 


4.2. 调用 Im 函数 构建 线性 回归 模型 


线性 回归 是 一 种 最 简单 的 回归 模型 ， 最 适合 仅 包 含 一 个 预测 变量 ， 并 且 预 测 变量 和 响应 变量 之 间 为 线性 关联 的 情况 。 在 R 语 言 中 ， 可 以 使 用 Im 冰 数 来 构建 数据 间 的 线性 回归 模型 。 
1. 准 备 

我 们 需要 准备 好 包含 一 个 预测 变量 和 响应 变量 ， 并 且 变 量 之 间 为 线性 关联 的 数据 集 。 
2. 操 作 


执行 以 下 操作 ， 调 用 Im 对 数据 进行 线性 回归 处 理 : 


1) 安装 car 包 ， 并 导入 car 库 到 R 环 境 中 : 


> install.packages ("car") 


» library(car) 


2) 从 该 包 中 ， 导 入 Quartet 数 据 集 : 


> data(Quartet) 
3) 调用 str 函 数 展示 Quartet 数 据 集 的 结构 : 


> str (Quartet) 

'data.frame': 11 obs. of 6 variables: 

S xc ZEE 10 BOIS S IL JÀ 5 4 32 Y i. 

2 yl: mum 3B.U4 nn BB 8.33 sus 
vi: num 3.14 B.I14 B.74 8.77 9:26 H.l 5.13 3.1 B.13 1.426 cpi 
v3. nm Feso TI 22:76 TTL FBl ves 

int 8 888888198 98 ... 

ve: mum 56.58 5.75 T.TL Bus BS T,UM 5,259 12,5 5.585 7.91. 525. 


Vr UV or ux 
A 
小 


4) 调用 plot 函 数 绘 制 变量 x 和 y 的 散 点 图 ， 并 调用 Im 和 abline 函 数 绘 制 回归 线段 : 


> plot(Quartet$x, Quartet$yl) 
> lmfit = lm(yl-x, Quartet) 


> abline(lmfit, col="red") 
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lm 函数 得 到 的 简单 回归 
5) 执行 下 列 操作 来 查看 模型 : 


» lmfit 


Call: 


lm(formula = y1 ~ x, data = Quartet) 


Coefficients: 
(Intercept) x 
3.0001 0.5001 


3. 原 理 


回归 模型 形 如 “响应 ~ 预测 ”， 其 中 “响应 ” 指 响应 向 量 ，“ 预 测 ”为 一 系列 说 明 预 测量 的 变量 。 简 单 的 回归 模型 可 以 用 公式 y=a+ bx 表示 ， 其 中 ，a 为 截 距 ， 而 斜率 b 指 当 x 发 生变 化 时 ，y 变 化 的 大 小 。 
借助 最 小 平方 法 ， 我 们 可 以 得 到 b= (cov[x, yl) / (var[x]) , a=y—bx- (此 处 ，y- 为 响应 变量 y 的 平均 值 ，x- 是 预测 变量 x 的 平均 值 ) 。 为 了 完成 线性 回归 分 析 ， 我 们 首先 要 准备 存在 线性 关系 的 响应 变量 
和 预测 变量 的 数据 集 。 在 本 节 的 样 例 中 ， 我 们 导入 了 car 包 的 安 斯 库 姆 四 重奏 数据 集 ， 在 该 数据 集中 ， 变 量 x 和 y1 之 间 存 在 线性 关联 ， 我 们 绘制 了 这 些 变量 的 散 点 图 ， 还 调用 了 Im 函数 生成 两 个 变量 的 回归 模 
型 以 获取 回归 直线 。 进 一 步 地 ， 我 们 调用 了 abline 函 数 将 回归 直线 展现 在 散 点 图 上 。 从 之 前 的 输出 结果 可 以 看 出 ， 回 归 线 说 明了 变量 x 和 y1 之 间 的 线性 关系 ， 回 归 系 数 为 0.5001， 线 段 的 截 距 为 3.0001。 之 
后 ， 我 们 可 以 基于 截 距 和 回归 系数 的 值 来 推断 响应 变量 的 值 。 例 如 ， 当 x=3 时 ， 响 应 变量 y=4.5103 (3*0.5001+3.0001) 。 


4. 扩 展 
除了 Im 函数 之 外 ， 我 们 还 可 以 使 用 |sfit 函 数 进 行 简单 的 线性 回归 分 析 。 例 如 : 
> plot (Quartets$x, Quartet$y1) 


> lmfit2 = lsfit (Quartet$x,Quartet$y1) 
> abline(lmfit2, col="red") 








lsfit 函 数 得 到 的 简单 回归 模型 


4.3 ”输出 线性 模型 的 特征 信息 


调用 summary 遂 数 ， 我 们 能 够 获得 格式 化 回归 系数 、 标 准 差 、 自 由 度 以 及 其 他 模型 特征 信息 。 本 节 将 介绍 如 何 使 用 summary 遂 数 来 获得 模型 的 整体 信息 。 
1. 准 备 

我 们 需要 完成 上 节 有 关 从 Quartet 数 据 集中 计算 变量 x 和 y1 的 线性 模型 ， 将 建立 的 模型 存放 在 Imfit 变 量 中 。 
2. 操 作 

执行 以 下 操作 ， 完 成 对 模型 特征 信息 的 输出 : 


通过 如 下 代码 计算 该 模型 的 详细 统计 信息 : 


> summary (lmfit) 


Call: 


lm(formula - yl - x) 


Residuals: 
Min 1Q Median 3Q Max 
-1.92127 -0.45577 -0.04136 0.70941 1.83882 


Coefficients: 

Estimate Std. Error t value Pr(»|t|) 
(Intercept) 3.0001 1.1247 2.667 0.02573 * 
Quartet$x 0.5001 D. 1179 4.241 0.00217 ** 


Biognir. codes: UD '**«** g.pgl '» 0701 Se ls tet g.l € * 3 


Residual standard error: 1.237 on 9 degrees of freedom 
Multiple R-squared: 0.6665, Adjusted R-squared: 0.6295 
F-statistic: 17.99 on 1 and 9 DF, p-value: 0.00217 


3. 原 理 
函数 summary 是 一 种 通用 的 生成 摘要 统计 信息 的 函数 。 本 节 样 例 计算 并 返回 得 到 一 系列 线性 模型 的 统计 量 ， 包 括 模型 的 残 差 、 系 数 的 标准 误差 、 相 关系 数 R“、F 统 计量 以 及 自由 度 等 。 在 Call 部 分 构建 
模型 的 函数 被 展示 ， 而 在 Residuals 部 分 ， 提 供 了 一 个 有 关 模 型 分 布 的 简要 统计 量 (最 小 值 、1/4 分 位 数 、 均 值 、3/4 分 位 数 、 最 大 值 ) 输出 。 


在 Coefficient 部 分 ， 每 个 系数 都 是 一 个 高 斯 随机 变量 ， 其 中 Estimate 列 展示 了 变量 均值 的 分 布 ; std.Error 展 示 变 量 的 标准 误差 ; t 值 是 Estimate 与 Std.Error 的 比值 ; pP 值 说 明了 生成 一 个 大 于 t 值 的 变量 
的 概率 。 在 样 例 中 ， 当 截 距 等 于 0.002573 和 变量 x 等 于 0.00217 时 ， 模 型 p 值 拥有 95% 的 置信 度 。 


残 差 标准 误差 输出 了 残 差 的 标准 偏差 值 ， 而 自由 度 指 由 训练 样本 得 到 的 观测 值 与 模型 参考 值 之 间 的 差别 。 多 重 R“ 是 回归 平方 和 与 总 离 差 平方 和 的 比值 。 我 们 可 以 利用 R< 来 评估 回归 线 对 样本 观测 值 的 拟 
合 程度 ，R< 值 越 高 ， 回 归 模型 越 优 良 。 但 是 仅 依靠 R< 我 们 并 不 能 得 出 回归 模型 是 否 符合 要 求 。 这 意味 着 ， 对 于 一 个 良好 的 回归 模型 ， 可 能 其 R< 值 很 低 ， 而 对 于 一 个 不 好 的 回归 模型 ， 其 R“< 值 也 可 能 很 高 。 因 
为 R2 不 考虑 自由 度 ， 所 以 计算 值 存在 偏差 。 为 了 得 到 更 准确 的 评估 结果 ， 我 们 往往 会 使 用 经 过 调整 的 R“ 进 行 无 偏差 的 评估 ， 在 样 例 中 ， 经 过 调整 的 R2 为 0.6295， 略 低 于 之 前 R2 (0.6665) 的 值 。 对 模型 经 
过 F 检 验 也 可 以 得 到 F 统 计量 ， 样 例 p 值 为 0.00217 (小 于 0.05) ， 因 此 原 假 设 不 成 立 (在 变量 之 间 不 存在 线性 关系 ) ， 表 明 F 的 观测 值 大 于 F 临 界 值 。 也 就 是 说 ， 在 变量 之 间 存在 很 强 的 正 相关 性 。 


4. 扩 展 


更 多 有 关 得 到 模型 摘要 信息 的 参数 信息 ， 可 以 使 用 help 国 数 参考 以 下 文档 : 


> ?summary.lm 


相应 地 ， 我 们 也 可 以 使 用 下 列 方法 来 获取 模型 的 性 质 : 


> coefficients(lmfit) # Extract model coefficients 


> confint(lmfit, level-0.95) d Computes confidence intervals for 
model parameters. 


> fitted(lmfit) # Extract model fitted values 
» residuals(lmfit) 4 Extract model residuals 


> anova(lmfit) 4 Compute analysis of variance tables for fitted 
model object 


> vcov(lmfit) # Calculate variance-covariance matrix for a fitted 
model object 


> influence(lmfit) # Diagnose quality of regression fits 


4.4 ”使 用 线性 回归 模型 预测 未 知 值 


当 构建 好 一 个 线性 回归 模型 后 ， 我 们 可 以 将 其 应 用 于 未 知 值 的 预测 。 在 给 定 回归 模型 后 ， 我 们 可 以 得 到 其 预测 精确 度 以 及 预测 区 间 和 置信 区 间 。 本 节 将 探讨 在 这 两 个 参数 限制 下 ， 如 何 完成 对 未 知 值 的 


预测 。 
1. 准 备 

读者 需要 完成 前 述 章节 的 操作 ， 从 quartet 数 据 集 计 算得 到 描述 变量 x 和 变量 y1 关 系 的 线性 模型 。 
2. 操 作 

执行 以 下 操作 ， 利 用 线性 回归 预测 未 知 值 : 

1) 找到 摘 述 变量 x 和 变量 y1 天 联 的 线性 模型 

> lmfit = lm(yl-x, Quartet) 
2) 将 准备 进行 预测 的 数据 放 入 newdata 数 据 框 中 : 


> newdata = data.frame (x = c(3,6,15)) 


3) 将 置信 和 度 设 为 0.95， 计 算 预 测 值 : 
> predict (lmfit, newdata, interval="confidence", level=0.95) 

EXE lwr upr 

1 4.500364 2.691375 6.309352 


2 6.000636 4.838027 37.163245 
3 10.501455 8.692466 12.310443 


4) 使 用 预测 区 间 ， 计 算 预测 值 : 


> predict(lmfit, newdata, interval-"predict") 
Lb lwr upr 

1 4.500364 1.169022 7.831705 

2. 6.000636 2.971271 39.030002 

3 I0.501455 7.170113 1328032135 


3. 原 理 
我 们 首先 构建 了 一 个 描述 变量 x 及 变量 y1 关 系 的 线性 模型 ， 接 下 来 我 们 将 需要 预测 的 数据 放 入 newdata 数 据 框架 中 ， 注 意 到 此 时 模型 形 如 y1~x 是 很 重要 的 。 


接 下 来 ,我 们 设置 好 了 将 参数 interval 的 值 设 为 “confidence”， 并 确定 好 置信 和 度 的 值 。 从 第 1 行 的 结果 输出 可 知 ， 当 x=3 时 ，y1=4.500364， 在 置信 和 度 为 95% (0.95 的 置信 水 平 ) 的 条 件 下 ， 变 量 y1 的 
均值 范围 为 2.691375 到 6.309352。 另 外 ， 第 2 行 和 第 3 行 分 别 为 x<=6 和 x=15 时 ， 给 出 了 y1 的 预测 值 。 


4 二 A 


接 下 来 ,我们 将 参数 “interval” 改 为 预测 区 间 ， 从 第 1 行 预测 输出 结果 可 知 ， 当 x=3 时 ，y1=4.500364， 预 测 区 间 为 95% 时 ， 变 量 y1 的 范围 为 1.169022 到 7.831705。 第 2 行 和 第 3 行 分 别 为 x<=6 和 x=15 
时 ， 也 给 出 了 y1 的 预测 值 。 


4 扩展 


如 果 读 者 希望 了 解 更 多 有 关 预 测 区 间 和 置信 区 间 的 不 同 点 ， 可 以 参考 维基 百科 的 相关 内 容 : http://en.wikipedia.org/wiki/Prediction interval£Contrast with confidence intervals, 


4.5 ”生成 模型 的 诊断 图 

我 们 可 以 通过 诊断 分 析 评估 回归 假设 ， 判 断 给 定 回归 模型 是 否 准确 地 描述 数据 之 间 的 关系 ， 本 节 将 探讨 如 何 通过 诊断 图 来 完成 对 回归 模型 的 诊断 分 析 。 
1. 准 备 

读者 需要 完成 前 述 章节 的 操作 ， 得 到 quartet 数 据 集中 变量 x 和 y1 的 线性 模型 ， 并 将 模型 放 在 Imfit 变 量 中 。 
2. 操 作 


执行 以 下 操作 ， 生 成 相关 模型 的 诊断 图 : 


通过 以 下 代码 绘制 回归 模型 的 诊断 图 : 


> par (mfrow=c (2,2)) 


» plot(lmfit) 
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回归 模型 的 诊断 图 
3. 原 理 


可 以 调用 plot 函 数 得 到 给 定 回归 模型 的 4 张 诊 断 图 : 


“ 左上 图 表示 的 是 残 差 和 拟 合 值 之 间 的 关联 。 在 图 中 ， 残 差 代表 当前 点 到 回归 直线 的 重 直 距离 ， 如 果 所 有 的 点 都 能 准确 落 在 回归 直线 上 ， 所 有 残 差 将 准确 地 落 在 图 中 灰色 虚线 上 。 图 中 红色 直线 是 根据 
残 差 得 到 的 平滑 曲线 ， 如 果 所 有 的 点 都 完全 落 在 回归 直线 上 ， 红 色 的 平滑 曲线 将 与 灰色 的 虚线 完全 重合 。 


` 右上 图 表示 的 是 残 差 的 正 态 图 ， 此 图 验证 残 差 是 正 态 分 布 的 猜想 。 因 此 如 果 残 差 服 从 正 态 分 布 ， 散 点 应 该 基本 落 在 图 中 灰色 虚线 上 。 


. 左下 为 位 置 -_ 尺 度 图 ， 用 于 计算 标准 残 差 与 拟 合 值 比值 的 平方 根 。 因 此 ， 如 果 所 有 的 点 都 落 在 回归 线段 上 ，y 值 近似 于 0。 如 果 我 们 假设 残 差 的 变化 不 会 对 分 布 有 本 质 影响 成 立 的 话 ， 图 中 红色 线段 应 
趋 于 平坦 。 


. 右 下 方 图 形 展示 了 标准 残 差 与 杠杆 值 的 关系 ， 杠 杆 值 是 衡量 观测 点 对 回归 效果 影响 大 小 的 度量 ， 是 观测 点 到 回归 中 心 的 距离 以 及 孤立 级 别 (以 该 点 周围 是 否 存在 近邻 点 作为 凭据 ) 的 度量 。 同 样 ， 我 
们 也 可 以 从 中 得 出 Cook 距 离 的 轮 廊 ， 该 距离 受 高 杠杆 率 及 大 的 残 差 值 影 响 。 我 们 可 以 利用 Cook 值 来 评估 如 果 去 掉 某 个 观测 点 后 回归 模型 的 变化 。 图 中 ， 红 色 直 线 相 对 标准 残 差 是 平滑 的 ， 如 果 回 归 模 型 非常 
好 ， 红 色 直 线 应 该 与 图 中 虚线 非常 接近 ，Cook 距 离 小 于 0.5。 
4. 扩 展 
如 果 希 望 了 解 更 多 有 关 诊 断 图 函数 的 内 容 ， 可 以 使 用 help 函 数 参考 以 下 文档 : 
» ?plot.lm 


为 了 发 现 诊断 图 中 是 否 有 Cook 值 较 大 的 观测 点 ， 我 们 可 以 调用 cooks.distance 函 数 来 计算 每 个 点 的 Cook 距 离 ， 并 可 视 化 分 析 距 离 的 分 布 : 


> plot(cooks.distance (lmfit)) 


02 03 04 05 


" 
I 
E 
— 
J) 
o 
C 
(Uu 
二 一 上 
- 
Ls. 
un 
A 
o 
O 
e 


Q0 0.1 





4.6 UFBimeSX Eee zn 

有 些 预测 变量 和 响应 变量 之 间 也 许 人 存在 非 线 性 关系 ， 此 时 ， 我 们 可 以 利用 n 阶 多 项 式 来 建 模 。 本 节 将 探讨 如 何 调用 Im 和 Poly 函数 实现 多 项 式 回 归 模 型 。 
1. 准 备 

读者 需要 准备 好 一 个 在 预测 变量 和 响应 变量 之 间 存 在 n 阶 多 项 式 关 联 的 数据 集 。 在 本 节 ， 我 们 将 继续 选择 car 包 中 的 Quartet 数 据 集 作为 样 例 的 输入 数据 集 。 
2. 操 作 

执行 以 下 操作 ， 使 用 Im 消 数 生成 一 个 多 项 式 回归 模型 : 


1) 绘制 变量 x 和 y2 的 散 点 图 : 


> plot(Quartet$x, Quartet$y2) 


Quartet$y2 


Quartet$x 





变量 x 和 y2 的 散 点 图 


2) 将 参数 值 设 为 2， 以 应 用 poly 函 数 : 


> lmfit = lm(Quartet$y2-poly (Quartet$x,2)) 
> lines (sort (Quartet$x), lmfit$fit[order(Quartet$x)], col = "red") 


3. 原 理 


二 阶 多 项 式 回归 模型 的 公式 为 : y= +x+cx2， 其 中 为 截 距 ， 为 回归 系数 。 


在 步骤 1 的 结果 图 中 可 知 ， 散 点 图 中 展示 的 变量 x 和 y2 之 间 不 存在 线性 关系 ， 但 形成 了 一 条 下 凹 (EO) 的 曲线 ， 转 折 点 在 x=11 处 。 我 们 将 建 模 参数 设 为 2， 以 调用 poly 函 数 来 构建 非 线 性 模型 ， 模 型 中 x 
为 独立 变量 ，y2 为 非 独 立 变量 。 图 中 红色 线段 说 明 模 型 对 观测 值 的 拟 合 度 非 常 高 。 
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变量 x 和 y2 的 二 项 式 回归 模型 示意 图 
4. 扩 展 


我 们 也 可 以 构建 一 个 二 阶 多 项 式 模 型 ， 其 中 独立 变量 等 于 公式 中 x 的 一 阶 变 量 和 二 阶 变 量 的 和 : 


> plot(Quartet$x, Quartet$y2) 
> lmfit = l1m(Quartet$y2- I(Quartet$x)-«I(Quartet$x^2)) 


4.7 WSFBrimEeRzA ^E Be e RU HT 


数据 中 的 孤立 点 会 对 回归 直线 的 正确 性 带 来 一 定 影响 ， 除 了 去 掉 孤 立 点 ， 我 们 也 可 以 利用 稳健 线性 回归 来 处 理 包 含 贩 立 点 的 数据 集 。 本 节 将 探讨 如 何 调 用 riIm 消 数 对 包含 孤立 点 的 数据 集 进行 稳健 线性 回 
归 分 析 。 
1. 准 备 

准备 好 包含 孤立 点 ， 并 且 孤 立 点 会 影响 回归 模型 准确 度 的 数据 集 ， 本 节 我 们 将 继续 使 用 之 前 提 到 的 Quartet 数 据 集 。 
2. 操 作 

执行 以 下 操作 ， 使 用 riIm 构 建 稳健 线性 回归 模型 : 


1) 绘制 变量 x 和 y3 的 散 点 图 : 


> plot(Quartet$x, Quartet$y3) 
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变量 x 和 y3 的 散 点 图 


2) 首先 导入 MASS 库 ， 然 后 调用 riIm 生 成 模型 ， 再 调用 abline 消 数 可 视 化 回归 直线 : 


> library (MASS) 


> lmfit = rlm(Quartet$y3-Quartet$x) 


> abline (lmfit, col="red") 


Quartet$y3 
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变量 x 和 y3 的 稳健 线性 回归 模型 


3. 原 理 


如 步骤 1) 的 结果 所 示 ， 我 们 可 能 会 遇 上 包含 孤立 点 的 数据 集 ， 并 且 这 些 孤 立 点 的 存在 还 会 对 回归 模型 的 正确 率 造 成 不 良 影响 。 我 们 展示 了 如 何 通 过 riIm 函 数 生成 稳健 线性 回归 模型 来 消除 孤立 点 带 来 的 
负面 影响 。 从 步骤 2 的 结果 输出 可 知 ， 稳 健 回归 直线 能 够 忽略 孤立 点 的 影响 ， 使 得 回归 直线 达到 很 好 的 拟 合 效 果 。 


4. 扩 展 
如 果 需 要 了 解 有 关 孤 立 点 对 回归 直线 的 影响 问题 ， 读 者 可 以 将 本 节 使 用 的 rm 函数 换 成 Im 函数 ， 并 重新 绘图 : 


> plot(Quartet$x, Quartet$y3) 
> lmfit = lm(Quartet$y3-Quartet$x) 


> abline(lmfit, col="red") 
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变量 x 和 y3 之 间 的 线性 回归 


RAT, MZA (Xx=13) 使 得 回归 直线 产生 了 偏 移 。 


4.8 在 SLID 数 据 集 上 研究 线性 回归 案例 


为 了 更 好 地 总 结 前 述 小 节 介绍 的 内 容 ， 本 节 我 们 将 展示 对 更 复杂 的 数据 集 进行 回归 分 析 ， 我 们 将 探讨 如 何在 动态 劳动 力 收入 动态 调查 (Survey of Labor and Income Dynamics, SLID) 数据 集 上 构建 
线性 回归 模型 。 


1. 准 备 

读者 需要 首先 确认 是 人 否 安装 和 导入 了 car 包 ， 因 为 要 访问 的 SLID 数 据 集 就 在 此 包 中 。 
2. 操 作 

执行 以 下 操作 ， 在 SLID 数 据 集 上 进行 线性 回归 分 析 : 


1) 调用 str 函 数 ， 获 得 数据 集 的 基本 信息 : 


> str (SLID) 


'data.frame': 7425 obs. of 5 variables: 


$ wages : num 10.6 11 NA 17.8 NA ... 

S education: num 15 13.2 16 14 8 16 12 14.5 15 10 ... 

$ age iE 4019 49 46 JL 50 70 AZ 3I 56 i... 

$ sex : Factor w/ 2 levels "Female","Male": 22222 111 
E UL oues 


$ language : Factor w/ 3 levels "English","French",..: 113 31 
i. Wd X Ga 


2) 可 视 化 变量 工资 和 语言 、 年 龄 、 受 教育 程度 以 及 性 别 的 关系 : 


> par(mfrow-zc(2,2)) 


> plot(SLID$wages ~ SLID$language) 


> plot(SLID$wages ~ SLID$age) 
> plot(SLID$wages ~ SLID$education) 
> plot(SLID$wages ~ SLID$sex) 
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工资 和 多 种 影响 因素 之 间 的 关系 


3) WAIMARIE pea : 


> lmfit = lm(wages ~ ., data = SLID) 


4) 调用 summary 函 数 获 取 模 型 的 特征 信息 : 


> summary (lmfit) 


Call: 
lm(formula - wages - ., data - SLID) 


Residuals: 
Min 10 Median 3Q Max 
-26.062 -4.347 -0.797 3.237 435.908 


Coefficients: 


Estimate Std. Error t value Pr(»|t|) 


(Intercept) -7.888779 0.612263 -12.885 <2e-16 *** 
education 0.916614 0.034762 26.368 «2e-16 *** 
age 0.255137 0.008714 29.278 «2e-16 *** 
sexMale 3.455411 0.209195 116.518 c2e-16 *** 


languageFrench -0.015223 0.426732 -0.036 0.972 

languageOther 0.142605 0.325058 0.439 0.661 

Hionif. ous UD Sowa DOLI "eet DIOIL er 005 T. gl * * Jl 
Residual standard error: 6.6 on 3981 degrees of freedom 

(3438 observations deleted due to missingness) 
Multiple R-squared: 0.2973, Adjusted R-squared: 0.2964 
F-statistic: 336.8 on 5 and 3981 DF, p-value: < 2.2e-16 


5) 去 掉 language 属 性 ， 重 新 调用 Im 函数 生成 模型 : 


> lmfit = lm(wages ~ age + sex + education, data = SLID) 
> summary (lmfit) 
Call: 
lm(formula = wages ~ age + sex + education, data = SLID) 
Residuals: 

Min 10 Median 3Q Max 
-26.111 -4.328 -0.792 3.243 35.892 
Coefficients: 

Estimate Std. Error t value Pr(>|t|) 

(Intercept) -7.905243 0.607771 -13.01 «2e-16 *** 
age 0.255101 0.008634 29.55 «2e-16 *** 
sexMale 3.465251 0.208494 16.62 «2e-16 *** 
education 0.918735 0.034514 26.62 «2e-16 *** 
Slugnif. codas: QU “ees OO 00. T+: 0201 "+ 0.05 *," D.I * œ= 1 


Residual standard error: 6.602 on 4010 degrees of freedom 


(3411 observations deleted due to missingness) 


Multiple R-squared: 0.2972, Adjusted R-squared: 0.2967 
F-statistic: 565.3 on 3 and 4010 DF, p-value: < 2.2e-16 
6) 调用 Imtfit 函 数 绘制 诊断 图 : 
> par (mfrow=c (2; 2)) 
> plot (lmfit) 
7) 求 工资 的 对 数 ， 重 新 绘制 诊断 图 : 
> lmfit = lm(log(wages) ~ age + sex + education, data = SLID) 


» plot(lmfit) 
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模型 诊断 图 


Residuals vs Fitted Normal Q-Q 
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调整 后 模型 的 诊断 图 
8) 调用 vif 函 数 诊断 多 重 共 线性 回归 模型 : 
> vif(lmfit) 
age sex education 
1.011613 1.000834  Á1.012179 
> sqrt(vif(lmfit)) > 2 
age sex education 


FALSE FALSE FALSE 


9) 安装 和 导入 Imtest 包 ， 并 调用 bptest 函 数 诊断 回归 模型 的 异 方差 性 : 


> install.packages("lmtest") 


> library (lmtest) 
» bptest(lmfit) 


studentized Breusch-Pagan test 


data:  lmfit 
BP 2 29.0311, df = 3, p-value = 2.206e-06 


10) 最 后 安装 和 导入 rms 包 ， 调 用 robcov 函 数 修正 标准 误差 : 


» install.packages("rms") 
> library(rms) 


> olsfit = ols(log(wages) ~ age + sex + education, data= SLID, X= 
TRUE, Y= TRUE) 


» robcov(olsfit) 


Linear Regression Model 


ols(formula = log (wages) ~ age + sex + education, data = SLID, 


X = TRUE, y = TRUE) 


Frequencies of Missing Values Due to Each Variable 


log (wages) age sex education 
3278 0 0 249 
Model Likelihood Discrimination 
Ratio Test Indexes 
Obs 4014 LR chiZ2 1486.08 R2 0.309 
sigma 0.4187 d.E. 3 R2 adj 0.309 
d. E. 4010 Pr(» chi2) 0.0000 g 0.315 
Residuals 
Min 109 Median iQ Max 


-2.36252 -0.27716 0.01428 0.28625 1.56588 


Coef S.E. t Pr(»|t]|) 
Intercept 1.11689 0.0387 28.90 «0.0001 
age 0.0176 0.0006 30.15 «0.0001 
sexsMale 0.2244 0.0132 16.96 «0.0001 
education 0.0552 0.0022 24.82 -0.0001 


3. 原 理 
本 节 展 示 了 如 何在 SLID 数 据 集 上 实施 线性 回归 分 析 的 过 程 。 我 们 首先 导入 SLID 数 据 集 ， 并 调用 str 函 数 输出 了 数据 集 的 结构 ， 从 数据 集结 构 可 知 ， 有 四 个 独立 变量 对 非 独 立 变 量 wages 的 值 会 产生 影响 。 


接 下 来 ， 我 们 探讨 了 每 个 独立 变量 和 非 独立 变量 wages 之 间 的 关系 ， 并 对 结果 进行 可 视 化 处 理 。 由 步骤 2 的 可 视 化 结果 可 知 ， 屏 幕 左上 角 用 盒 图 展示 了 变量 wages 在 变量 language 取 3 个 不 同 的 值 的 变 
化 ,我 们 没有 发 现 两 个 变量 之 间 存 在 明显 的 关联 。 从 右上 角 图 可 知 变量 age 似 平和 非 独立 变量 wages 之 间 存 在 正 相关 。 而 从 左下 角 的 图 可 知 ， 变 量 education 也 与 变量 wages 之 间 存 在 正 相 关 。 最 后 ， 右 下 角 
的 盒 图 显示 男性 的 工资 要 了 略 高 于 女性 的 工资 。 


接 下 来 ， 我 们 将 变量 wages 作 为 模型 的 预测 变量 ， 通 过 模型 特征 输出 可 知 ， 变 量 education、age 和 sex 显 著 性 水 平 较 高 (p 值 <0.05) ， 因 此 ， 我 们 去 掉 了 不 重要 的 属性 language (其 p 值 >0.05) , 3f 
重新 构建 了 包含 三 个 独立 变量 (education, age. sex) 和 非 独立 变量 (wages) 之 间 的 线性 模型 ， 调 整 后 的 模型 其 F 统 计量 由 原来 的 336.8 提 升 到 565.3。 


紧 接着 ,我 们 生成 了 该 模型 的 诊断 图 ， 所 有 诊断 图 的 输出 都 证 实 了 回归 模型 与 预期 的 回归 假设 是 符合 的 。 但 从 残 差 图 、 位 置 - 尺 度 图 可 知 ， 较 小 的 残 差 相 对 回归 模型 都 存在 一 定 程度 偏差 。 由 于 变量 
wages 变 化 学 围 比较 大 ， 因 此 为 了 对 称 ， 我 们 引入 变量 wages 的 对 数 重新 构建 回归 模型 。 调 整 后 ， 代 表 残 差 的 红色 直线 以 及 位 置 -尺度 图 都 更 接近 灰色 虚线 。 


我 们 之 后 需要 检验 的 是 模型 中 是 否 存 在 多 重 共 线 性 关系 ， 当 预测 变量 与 其 他 预测 变量 之 间 人 存在 高 度 关联 称 为 多 重 共 线 性 。 如 果 模 型 中 人 存在 多 重 共 线性 ， 某 些 变量 的 可 决 系数 会 变 得 很 高 ， 变 量 显 著 性 却 
很 低 。 为 了 验证 多 重 共 线 性 ， 我 们 可 以 调用 vif 函 数 计算 线性 和 广义 线性 模型 的 方差 膨胀 因子 和 广义 方差 膨胀 因子 ， 如 果 多 重 共 线 性 存在 ， 则 会 发 现 预 测 值 的 方差 膨胀 因子 大 于 2， 然 后 去 掉 见 余 的 预测 变 
量 ,或 使 用 主 成 分 分 析 将 预测 变量 集 转换 为 一 个 不 相关 的 小 的 变量 集合 。 


最 后 ， 检 验 模型 是 否 存在 异 方差 性 。 在 介绍 异 方 差 性 的 定义 之 前 ,我 们 首先 要 清楚 一 些 经 典 猜 想 ， 通 常 对 于 一 般 线性 回归 模型 ， 都 会 假设 观测 值 的 误差 的 方差 是 常数 或 齐 次 。 异 方差 性 则 意味 着 变量 方 
差分 布 不 均匀 ， 因 此 ， 可 能 导致 我 们 评估 的 标准 差 存 在 偏差 ,误导 假设 的 检验 结果 。 我 们 可 以 调用 Imtest 包 中 bptest 函 数 来 执行 Breusch-Pagan 检 验 以 判断 线性 回归 模型 是 否 存在 异 方差 性 。 样 例 的 p 值 为 
2.206e-06 (<0.5) ， 因 此 有 关 存 在 异 方差 性 的 原 假设 并 不 成 立 。 也 就 是 说 参数 估计 的 标准 误差 不 正确 。 为 此 ， 我 们 可 以 继续 通过 稳健 标准 差 来 修正 标准 误差 (并 不 会 去 掉 异 方差 性 ) ， 并 调用 rms 包 的 
robcov 函 数 来 进一步 提高 那些 正确 的 显著 性 强 的 参数 的 显著 性 水 平 。 不 过 由 于 robcov 函 数 仅 从 rms 包 提取 已 构建 好 的 模型 作为 输入 ， 我 们 必须 提前 准备 好 一 般 最 小 二 乘法 模型 。 


4 扩展 


如 果 读 者 希望 了 解 更 多 有 关 SLID 数 据 集 的 内 容 ， 可 以 使 用 help 函 数 参考 以 下 相关 文档 : 


> ?SLID 


4.9 ”基于 高 斯 模型 的 广义 线性 回归 


广义 线性 模型 (Generalized Linear Model, GLM) 是 对 线性 回归 的 推广 ， 模 型 通过 一 个 连接 遂 数 得 到 线性 预测 结果 。 默 认 情 况 下 ，glm 的 族 对 象 为 高 斯 模型 ， 此 时 glm 函 数 和 Im 函 数 功 能 一 致 。 本 节 


将 首 先 展示 如 何 使 用 glm 函 数 对 数据 建 模 ， 然 后 验证 当 建 模 工 具 为 高 斯 函数 时 ，glm 函 数 和 Im 函数 在 功能 上 的 相似 性 。 
1. 准 备 
由 于 本 节 需 要 用 到 SLID 数 据 集 ， 所 以 读者 需要 确认 是 否 安装 和 导入 了 car 库 。 


2. 操 作 
执行 以 下 操作 ， 完 成 基于 高 斯 模型 建立 广义 线性 回归 模型 的 操作 : 
1) 调用 glm 函 数 ， 独 立 变量 为 age、sex、education， 预 测 变量 为 wages: 
> lmfitl = glm(wages ~ age + sex + education, data = SLID, 


family-gaussian) 


> summary (lmfit1l) 


Call: 


glm(formula = wages ~ age + sex + education, family = gaussian, 


data - SLID) 


Deviance Residuals: 
Min 1Q Median 3Q Max 
-26.111 -4.328 -0.792 3.243 35.892 


Coefficients: 

Estimate Std. Error t value Pr(»|t|) 
(Intercept) -7.905243 0.607771  -13.01 «2e-16 *** 
age 0.255101 0.008634 29.55 «2e-16 *** 
sexMale 3.465251 0.208494 16.62 «2e-16 *** 
education 0.918735 0.034514 26.62 «2e-16 *** 


Signif. codes: Q "=s! 0.001 '*** Q.01 '** Q.05 '.* 0.1' * 1 


(Dispersion parameter for Gaussian family taken to be 43.58492) 


Null deviance: 248686 on 4013 degrees of freedom 
Residual deviance: 174776 on 4010 degrees of freedom 
(3411 observations deleted due to missingness) 


AIC: 26549 


Number of Fisher Scoring iterations: 2 


2) 调用 Im 函数 ， 独 立 变 量 为 age、sex、education ， 预 测 变量 为 wages: 


> lmfit2 = lm(wages ~ age + sex + education, data = SLID) 


> summary (lmfit2) 


Call: 


lm(formula = wages ~ age + sex + education, data = SLID) 


Residuals: 
Min 1Q Median 3Q Max 
-26.111 -4.328 -0.792 3.243 35.892 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -7.905243 0.607771  -13.01 «2e-16 *** 
age 0.255101 0.008634 29.55 «2e-16 *** 
sexMale 3.465251 0.208494 16.62 «2e-16 *** 
education 0.918735 0.034514 26.62 «2e-16 *** 


Sigmi: codas: QU "Sas D,UUI "Se! D.D01 TSU D.UuS5 Tat Cr *"* 1 
Residual standard error: 6.602 on 4010 degrees of freedom 
(3411 observations deleted due to missingness) 


Multiple R-squared: 0.2972, Adjusted R-squared: 0.2967 
F-statistic: 565.3 on 3 and 4010 DF, p-value: < 2.2e-16 


3) 调用 anova 遂 数 比 较 两 个 模型 : 


> anova(lmfitl, lmfit2) 


Analysis of Deviance Table 


Model: gaussian, link: identity 


Response: wages 


Terms added sequentially (first to last) 


Df Deviance Resid. Df Resid. Dev 


NULL 4013 248686 
age 1 31953 4012 216733 
sex 1 11074 4011 205659 
education 1 30883 4010 174776 


3. 原 理 


国 数 glm 与 函数 |m 对 数据 构建 模型 的 方式 比较 相似 ， 两 者 之 间 的 唯一 差别 在 于 我 们 可 以 指定 glm 函 数 中 的 参数 family 中 不 同 的 连接 函数 (我 们 可 以 使 用 “?”family” 来 查看 可 供 连 接 的 不 同类 型 的 函 
数 ) 。 在 本 节 ， 我 们 首先 输入 独立 变量 (age、set 和 education) 和 预测 变量 (wages) ， 用 glm 函 数 建 模 ， 并 将 建立 好 的 模型 命名 为 Imfit1， 当 然 我 们 也 可 以 使 用 构建 好 的 模型 完成 进一步 的 预测 。 


接 下 来 ,为 了 检验 glIm 遂 数 生成 的 基于 高 斯 分 布 的 模型 是 否 与 Im 水 数 完全 相同 ， 我 们 又 以 相同 的 方式 调用 Im 浮 数 建 模 ， 通 过 调用 summary 遂 数 输 出 两 个 不 同 的 模型 的 统计 特征 信息 可 知 ， 两 个 输出 特征 
信息 的 残 差 和 系数 完全 一 致 。 


最 后 ,我 们 又 调用 了 anova 背 数 对 两 个 模型 进行 比较 ，anova 函 数 的 结果 显示 两 个 模型 无 论 是 残 差 自 由 度 (residual degrees of freedom, Res.DF) 还 是 残 差 平方 和 (Residual sum of squares, RSS 
Df) 都 是 类 似 的 。 


4. 扩 展 


有 关 广 义 线性 模型 和 线性 模型 的 比较 ， 我 们 可 以 参考 文档 : 


Venables, W.N., &Ripley, B.D. (2002) .Modern applied statistics with S.Springer. 


4.10 ”基于 站 松 模 型 的 广义 线性 回归 


广义 线性 模型 支持 非 正 态 分 布 (高 斯 分 布 ) 的 响应 变量 。 本 节 将 展示 当 glm 函 数 的 family 参 数 为 泊 松 分 布 时 ， 对 计数 数据 的 处 理 方 法 。 
1. 准 备 

样 例 要 求 事先 准备 好 待 处 理 的 计数 数据 ， 该 数据 集 仅 包 含 整数 。 
2. 操 作 

执行 以 下 操作 ， 构 建 一 基于 泊 松 模型 的 广义 线性 模型 : 


1) 装载 warpbreaks 数 据 集 ， 并 调用 head 函 数 查看 前 几 行 数据 : 


> data(warpbreaks) 

> head(warpbreaks) 

breaks wool tension 
26 A 
30 
54 
25 
70 
52 


o Uu d t N H 
pop 
e Dnm p p m om 


2) 将 独立 变量 tension， 非 独立 变量 breaks 的 family 对 象 设置 为 泊 松 分 布 : 


> rsl = glm(breaks ~ tension, data-warpbreaks, family-"poisson") 


> summary (rs1) 


Calle 


glm (formula = breaks ~ tension, family = "poisson", data = 
warpbreaks) 


Deviance Residuals: 
Min 1Q Median 3Q Max 
-4.2464 -1.6031 -0.5872 L.28413 4.9366 


Coefficients: 
Estimate Std. Error z value Pr(»|z|) 


(Intercept) 3.59426 0.03907 91.988 < 2e-16 *** 


tensionM -0.32132 0.06027 -5.332 9.73e-08 *** 
tensionH -0.51849 0.06396 -8.107 5.21e-16 *** 
Hignif. codas: Oi tees Q.001 tert 0201 'w* 0205 Tas D.21 = +1 


(Dispersion parameter for Poisson family taken to be 1) 


Null deviance: 297.37 on 53 degrees of freedom 
Residual deviance: 226.43 on 51 degrees of freedom 


AIC: 507.09 


Number of Fisher Scoring iterations: 4 


3. 原 理 


在 假设 变量 分 布 服从 泊 松 分 布 时 ， 可 以 采用 对 数 线性 模型 来 拟 合计 数 数据 。 在 本 节 ， 我 们 首先 从 warpbreaks 数 据 集中 装载 了 一 个 样本 数据 集 ， 该 数据 集 存 放 了 每 个 织 布 机 的 异常 数据 。 接 下 来 ， 我 们 将 
breaks 作 为 glm 函 数 的 非 独立 变量 ，tension 作 为 glm 函 数 的 独立 变量 ， 并 将 family 参 数 设置 为 Possion。 最 后 ， 我 们 可 以 再 调用 summary 函 数 来 查看 构建 好 的 对 数 线性 模型 。 


4 扩展 


如 果 和 希望 了 解 更 多 有 关 计数 数据 与 泊 松 模型 的 关联 ， 可 以 查看 以 下 文档 : 


Cameron, A.C., &Trivedi, P.K. (2013) .Regression analysis of count data (No.53) .Cambridge university press. 


4.11 基于 二 项 模型 的 广义 线性 回归 


如 果 非 独立 变量 服从 二 项 分 布 ， 我 们 可 以 将 glIm 函 数 的 family 参 数 设 置 为 二 项 分 布 模型 。 
1. 准 备 

本 节 要 求 准备 好 非 独立 变量 服从 二 项 分 布 的 数据 集 ， 因 此 ， 我 们 使 用 vs 变量 (V 发 动机 或 直列 式 发 动机 ) 作为 非 独 立 变量 。 
2. 操 作 

执行 以 下 操作 ， 构 建 基于 二 项 模型 的 广义 线性 回归 模型 

1) 首先 ， 查 看 mtcars 中 vs 的 前 六 项 : 


> head (mtcarssvs) 


Ea H Wg—LOE OW L 


2) 调用 family 参 数 为 binomial 的 gIm 函 数 处 理 数据 : 


> lml = glm(vs ~ hp+mpg+gear,data=mtcars, family-binomial) 


> summary (1m1l) 


Call: 


glm(formula = vs ~ hp + mpg + gear, family = binomial, data = 
mtcars) 


Deviance Residuals: 
Min 1Q Median 3Q Max 
-1.68166 -0.23743 -0.00945 0.30884 1.55688 


Coefficients: 


Estimate Std. Error z value Pr(»|z|) 


(Intercept) 11.95183 8.00322 1.493 D. 2353 


hp -0.07322 0.03440 -2.129 0.0333 * 

mpg 0.16051 0.27538 0.583 0.5600 

gear -1.66526 1.76407 -0.944 0.3452 

Hiügnif. codas: Ç Tw 0,0017 TEF: D.01 TEE p.05 9." Q.r w ra 


(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 43.860 on 31 degrees of freedom 
Residual deviance: 15.651 on 28 degrees of freedom 


AIC: 23.651 


Number of Fisher Scoring iterations: 7 


3. 原 理 


如 果 数 据 服从 二 项 分 布 ， 则 响应 变量 的 每 个 观测 值 要 么 为 0 要 么 为 1， 建 立 二 项 分 布 数据 的 回归 模型 需要 一 个 二 项 分 布 的 函数 。 本 节 样 例 中 ， 我 们 首先 从 mtcars 数 据 集中 加 载 服从 二 项 分 布 的 vs 变量 作为 
非 独立 变量 。vs 变 量 由 于 包含 二 项 分 布 的 数据 适合 建立 二 项 分 布 的 模型 。 接 下 来 ， 我 们 将 glm 函 数 的 family 参 数 设置 为 binomial， 即 采用 基于 二 项 模型 的 线性 回归 模型 处 理 数 据 。 最 后 ， 我 们 通过 调用 
summary 函 数 来 获取 模型 的 描述 信息 。 


4 扩展 


- 如 果 我 们 仅 指 定 gm 函数 中 的 family 参 数 ， 那 么 函数 会 使 用 默认 的 连接 函数 构建 模型 。 如 果 希 望 选 择 别 的 连接 函数 ， 可 以 在 调用 时 增加 对 link 参 数 的 设置 ， 例 如 : 


> lml = glm(vs ~ hp«mpg-«gear,data-mtcars, 
family-binomial(link-"probit")) 


de S 2B iB RAEG SEE $ y VERG E, T VAdE JH help ZA ATF XUBi: 


» ?family 


4.12 利用 广义 加 性 模型 处 理 数据 


广义 加 性 模型 《Generalized Additive Mode, GAM) 可 以 被 看 成 一 般 线性 模型 GLM 的 半 参 数 扩 展 ， 被 应 用 于 构建 广义 加 性 模型 。 当 GLM 模 型 假设 在 非 独 立 变 量 与 独立 变量 之 间 存 在 某 种 线性 关 
系 ，GAM 建 模 基 于 数据 本 身 ， 因 此 GAM 更 适合 处 理 那 些 非 独立 变量 与 独立 变量 之 间 存 在 复杂 非 线性 关系 的 情况 。 在 本 节 ， 我 们 将 探讨 如 何 使 用 广义 加 性 模型 来 建立 模型 。 


1. 准 备 

读者 需要 事先 准备 好 符合 如 下 要 求 的 数据 框架 : 包含 若干 变量 ， 其 中 一 个 变量 为 响应 变量 ， 其 他 变量 可 以 为 预测 变量 。 
2. 操 作 

执行 以 下 操作 ， 构 建 数据 的 广义 加 性 模型 : 

1) 装载 mgcv 包 ， 该 包 中 包括 gam 函 数 : 


> install.packages ("mgcv") 


» library (mgcv) 


2) 安装 MASS 包 ， 并 导入 Boston 数 据 集 : 


> install.packages ("MASS") 
> library (MASS) 
> attach (Boston) 


> str(Boston) 


3) 调用 gam 函 数 构 建 回归 模型 ; 


> fit = gam(dis ~ s(nox)) 


4) 调用 Summary 函 数 输出 模型 的 特征 信息 : 


> summary (fit) 
Family: gaussian 


Link function: identity 


Formula: 


dis ~ s (nox) 


Parametric coefficients: 
Estimate Std. Error t value Pr(»|t|) 
(Intercept) 3.79504 0.04507 84.21 «2e-16 *** 


Bigu. dGgaNs Cg Ue OGL "e DOLI Cw 4.059 "Q.* BEL * T OX 


Approximate significance of smooth terms: 
edf Ref.df F p-value 
s(nox) 8.434 8.893 189 <2e-16 *** 


Hignir. codes: 0 "ee G 001 we" DUI Tr 0.05 *.* 0.2 ' * 2 


R-sq. (adj) = 0.768 Deviance explained = 77.2% 
GCV = 1.0472 Scale est. = 1.0277 n = 506 


3. 原 理 


广义 加 性 模型 被 设计 用 于 最 大 化 来 自 不 同 分 布 的 非 独立 变量 y 的 预测 能 力 ， 通 过 评 佑 预测 变量 的 非 参数 函数 ， 这 是 连接 依赖 变量 与 预测 变量 的 一 种 连接 函数 。GAM 模 型 形式 为 : 
g (E (y) ) =+f1 (x1) +f2 (x2) +...+fn (Xn) ,其 中 E 为 依赖 变量 y 的 指数 分 布 族 ，g 为 连接 函数 ，f 为 每 个 预测 变量 的 连接 函数 。 


函数 gam 可 由 mgcv 包 获得 ， 因 此 必须 先 安装 mgcv 包 ， 并 将 其 导入 到 当前 R 会 话 中 。 然 后 ， 再 从 MASS 包 装载 Boston 数 据 集 (Boston 城 郊 房价 数据 集 ) 。 我 们 将 数据 集中 的 dis 变 量 (到 Boston 五 个 就 
业 中 心 的 加 权 平 均 距离 ) 作为 非 独 立 变量 ,将 nox 变 量 (一 氧化 氮 浓 度 ) 当 作 独 立 变量 ， 并 将 它们 输入 到 gam 函 数 中 以 构建 回归 模型 。 


与 遂 数 gIm 相 似 ， 遂 数 gam 也 支持 用 户 调用 summary 遂 数 输出 模型 特征 ， 从 特征 信息 可 知 参数 化 结果 、 平 滑 项 的 显著 性 和 其 他 有 用 的 信息 。 


4. 扩 展 


除了 gam 函 数 ，mgcv 包 还 提供 了 其 他 的 适合 构建 大 数据 集 的 广义 加 性 模型 bam 函 数 ，bam 函 数 的 原理 和 8gam 函 数 非常 相似 ， 但 是 需要 的 内 存 更 少 ， 效 率 相 对 更 高 。 请 调用 help 函 数 查看 有 关 此 函数 的 更 多 


信息 : 
> ? bam 


` 更 多 有 关 R 中 的 广义 加 性 模型 的 内 容 ， 请 参考 以 下 文档 : 


Wood, S. (2006) .Generalized additive models: an introduction with R.CRC press. 


4.43 可视化 广义 加 性 模型 


本 节 将 探讨 如 何在 散 点 图 上 绘制 gam 回 归 直 线 ， 以 及 调用 plot 遂 数 对 广义 加 性 模型 进行 可 视 化 处 理 。 
1. 准 备 

完成 之 前 章节 涉及 的 操作 ， 将 构建 的 gam 模 型 放 在 变量 fit 中 。 
2. 操 作 

执行 以 下 操作 ， 完 成 广义 加 性 模型 的 可 视 化 处 理 : 


1) 绘制 变量 nox 和 dis 的 散 点 图 : 


> plot(nox, dis) 





变量 nox 和 dis 的 散 点 图 


2) 在 散 点 图 上 增加 回归 线段 : 


> X = seq(0, 1, length = 500) 
> y = predict(fit, data.frame(nox = x)) 


> lines(x, y, col = "red", lwd = 2) 





在 散 点 图 上 绘制 gam 回 归 模 型 


3) 调用 plot 范 数 绘制 模型 ; 


> pLot(ELt) 





3. 原 理 

为 了 可 视 化 模型 我 们 首先 绘制 了 变量 nox 和 dis 散 点 图 ， 然 后 根据 模型 变量 ft， 调 用 predict 函 数 生成 了 x 轴 和 响应 y 轴 ， 最 后 再 调用 line 函 数 在 散 点 图 上 增加 了 回归 直线 。 

除了 在 散 点 图 上 增加 线段 来 表示 模型 回归 线 ，gan 还 可 以 直接 调用 plot 函 数 来 绘制 包含 置信 区 间 的 模型 回归 线 。 为 了 强调 置信 区 间 的 范围 ， 我 们 在 样 例 中 将 参数 shade 的 值 设置 为 TRUE。 
4. 扩 展 


函数 vis.gam 常 被 应 用 于 生成 gam 模 型 预测 的 透视 图 或 其 轮 廊 图 ， 对 我 们 从 图 中 发 现 响应 变量 和 两 个 预测 变量 之 间 的 关联 有 帮助 。 以 下 是 有 关 Boston 数 据 集 轮廓 图 的 样 例 : 


> fit2=gam(medv~crim+zn+crim:zn, data=Boston) 


> vis.gam(fit2) 
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vis.gam 绘 制 的 轮 廊 图 样 例 


诊断 广义 加 性 模型 


GAM 同 时 还 为 模型 处 理 过 程 以 及 广义 加 性 模型 的 结果 提供 了 诊断 信息 。 在 本 节 ， 我 们 将 探讨 如 何 通 过 gam.check 函 数 来 绘制 诊断 图 。 


读者 需要 完成 前 述 章节 提 及 的 操作 ， 将 构建 好 的 gam 模 型 存放 在 ft 变量 中 。 


执行 以 下 操作 ， 完 成 对 广义 加 性 模型 的 诊断 : 


1) 对 已 生成 的 模型 调用 gam.check 绘 制 诊断 图 : 


> gam.check (fit) 


Method: GCV Optimizer: magic 

Smoothing parameter selection converged after 7 iterations. 

The RMS GCV score gradient at convergence was 8.79622e-06 . 

The Hessian was positive definite. 

The estimated model rank was 10 (maximum possible: 10) 

Model rank - 10 / 10 

Basis dimension (k) checking results. Low p-value (k-index-1) may 


indicate that k is too low, especially if edf is close to k'. 


ict edf k-index p-value 
s(nox) 9.000 8.434 0.337 0 


Resids vs. linear pred. 


deviance residuals 
residuals 


theoretical quantiles linear predictor 


Histogram of residuals Response vs. Fitted Values 
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gam 模 型 的 诊断 图 


3. 原 理 


函数 gam.check 首 先 会 得 到 平滑 参数 估计 的 收敛 信息 ， 样 例 中 的 平滑 参数 ，GCV/UBRE (Generalized Cross Validation/Unbiased Risk Estimation) 在 迭代 7 次 后 会 收敛 。GCV/UBRE 函 数 的 绝对 梯 
度 均值 最 小 值 为 8.79622e-06 和 评估 级 别 为 10。 维 度 检验 的 目的 是 判断 平滑 函数 的 基础 维度 是 否 够 用 。 样 例 的 P 值 比较 小 ， 意 味 着 参数 k 初 始 值 偏 低 。 我 们 可 以 通过 指定 k 值 来 调整 维度 选项 优化 平滑 效果 ， 建 
立 数据 的 gam 模 型 。 


除了 能 够 输出 有 关 平 滑 参数 估计 的 收敛 信息 ，gam.check 函 数 还 将 返回 四 个 诊断 图 。 样 例 中 左上 角 为 分 位 数 - 比 较 图 (quantile-comparison plot) ， 常 用 于 判断 孤立 点 和 重 尾 的 存在 ， 右 上 和 角 为 残 差 
值 和 线性 预测 值 的 散 点 图 ， 常 被 用 于 发 现 非 常数 的 误差 方差 ， 左 下 角 为 残 差 的 直方 图 ， 可 用 于 发 现 非 正 态 分 布 关系 ;而 右 下 角 为 响应 值 与 拟 合 值 的 散 点 图 。 


4. 扩 展 


读者 可 以 调用 help 浮 数 获得 更 多 有 关 gam.check 的 帮助 信息 ， 特 别 是 有 关 平 滑 参 数 估计 收 钱 问题 以 及 上 述 四 种 结果 图 的 细节 内 容 : 


> ?gam.check 


另外 ， 更 多 有 关 choose.k 的 信息 可 以 使 用 以 下 命令 : 


> ?choose.k 
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分 类 算法 是 基于 类 标号 已 知 的 训练 数据 集 建立 分 类 模型 并 使 用 其 对 新 观测 值 (测试 数据 集 ) 进行 分 类 的 算法 ， 因 而 与 回归 算法 一 样 也 属于 监督 学 习 方法 ， 都 是 使 用 训练 数据 集 的 已 知 结论 (类 标号 ) 预 
测 测试 数据 集 的 分 类 结果 ， 分 类 与 回归 的 最 大 区 别 在 于 后 者 对 连续 值 进行 预测 处 理 。 


分 类 算法 则 与 之 相反 ， 通 常 被 应 用 于 判断 给 定 观测 值 的 类 别 。 例 如 ， 基 于 某 给 定 股票 的 历史 价格 ， 我 们 可 以 使 用 回归 算法 来 预测 它 未 来 可 能 的 价格 ， 而 如 果 要 判断 这 只 股票 未 来 是 涨 还 是 跌 则 应 该 使 用 


本 章 将 介绍 如 何 使 用 R 实 现 分 类 。 我 们 首先 基于 churn 数 据 集 分 别 建立 训练 数据 集 和 测试 数据 集 ， 然 后 使 用 不 同 的 分 类 模型 对 其 进行 分 类 ， 紧 接着 再 使 用 传统 分 类 树 和 条 件 推 理 树 来 介绍 基于 树 的 分 类 算 
分 别 学习 基 于 延迟 的 算法 和 基于 概率 的 算法 ， 这 些 算 法 都 会 基于 训练 数据 集 建立 分 类 模型 ， 然 后 利用 分 类 模型 预测 测试 数据 集 的 分 类 结果 。 我 们 还 将 构建 一 个 混淆 矩阵 来 评测 这 些 模型 的 预测 
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测 测试 数据 集 的 分 类 结果 ， 分 类 与 回归 的 最 大 区 别 在 于 后 者 对 连续 值 进行 预测 处 理 。 


分 类 算法 则 与 之 相反 ， 通 常 被 应 用 于 判断 给 定 观测 值 的 类 别 。 例 如 ， 基 于 某 给 定 股票 的 历史 价格 ， 我 们 可 以 使 用 回归 算法 来 预测 它 未 来 可 能 的 价格 ， 而 如 果 要 判断 这 只 股票 未 来 是 涨 还 是 跌 则 应 该 使 用 


本 章 将 介绍 如 何 使 用 R 实 现 分 类 。 我 们 首先 基于 churn 数 据 集 分 别 建立 训练 数据 集 和 测试 数据 集 ， 然 后 使 用 不 同 的 分 类 模型 对 其 进行 分 类 ， 紧 接着 再 使 用 传统 分 类 树 和 条 件 推理 树 来 介绍 基于 树 的 分 类 算 
法 ， 读 者 还 将 分 别 学 习 基于 延迟 的 算法 和 基于 概率 的 算法 ， 这 些 算 法 都 会 基于 训练 数据 集 建 立 分 类 模型 ， 然 后 利用 分 类 模型 预测 测试 数据 集 的 分 类 结果 。 我 们 还 将 构建 一 个 混淆 矩阵 来 评测 这 些 模型 的 预测 


5.2 ”准备 训 





练 和 测试 数据 集 


要 建立 分 类 模型 必须 首先 通过 训练 数据 集 来 训练 分 类 模型 ， 再 利用 测试 数据 集 来 验证 预测 模型 的 性 能 。 下 面 我 们 将 分 别 展示 对 telecom churn 数 据 集 分 割 分 别 得 到 训练 和 测试 数据 集 的 过 程 。 
1. 准 备 
在 本 节 中 ， 我 们 将 telecom churn 数 据 集 作为 输入 数据 源 ， 并 将 其 分 成 训练 和 测试 数据 两 个 集合 。 


2. 操 作 


执行 以 下 步骤 分 割 churn 数 据 集 得 到 训练 和 测试 数据 。 


1) 读者 可 以 从 C50 包 中 得 到 churn 数 据 集 : 


> install.packages ("C50") 
> library (C50) 


» data(churn) 


2) 执行 str 命 令 了 解数 据 集 的 结构 : 


> str(churnTrain) 


3) 我 们 可 以 删除 state、area_code 和 account length 属 性 ， 因 为 这 三 个 属性 对 分 类 特征 没有 贡献 : 


> churnTrain = churnTrain[,! names(churnTrain) %in% c("state", 
"area code", "account length") ] 


4) 接 下 来 将 70% 的 数据 划分 到 训练 数据 集中 ，30% 的 数据 放 在 测试 数据 集 内 : 


> get.seed(2) 


> ind = sample(2, nrow(churnTrain), replace = TRUE, prob=c(0.7, 
0.3)) 

» trainset - churnTrain[ind -- 1,] 

> testset = churnTrain[ind == 2,] 


5) 最 后 ， 使 用 dim 命 令 浏览 训练 和 测试 数据 集 的 维度 : 


> dim(trainset) 
[1] 2315 17 
» dim(testset) 


[1] 1018 LJ 


3. 原 理 


本 节选 择 telecom churn 数 据 集 作 为 样 例 数据 源 ， 该 数据 集 包 含 了 3333 个 样 例 ， 数 据 维度 为 20。 我 们 建立 一 个 分 类 模型 判断 顾客 是 否 会 流失 ， 因 为 争取 一 个 新 顾客 的 成 本 显然 要 高 于 维护 一 个 老 顾 客 的 
成 本 ， 因 此 预测 的 结果 对 telecom 公 司 是 非常 重要 的 。 


在 构建 分 类 模型 之 前 ， 首 先 需 要 对 数据 进行 预 处 理 。 将 churn 数 据 集 从 C50 包 中 装载 到 R 会 话 内 ， 并 将 变量 命 
因此 先 去 掉 这 三 个 属性 。 


名 为 churn。 之 前 已 经 确定 state、area_code 和 account length 对 构建 分 类 模型 没有 作用 ， 


完成 预 处 理 后 将 数据 集 分 别 分 割 为 训练 和 测试 两 个 集合 ， 我 们 使 用 一 个 样本 函数 随机 生成 一 个 序列 ， 该 序列 大 小 等 同 70% 的 样 例 大 小 ， 再 生成 一 个 大 小 等 同 30% 样 例 个 数 的 序列 。 接 下 来 ， 用 生成 的 序 
列 将 chum 数 据 集 分 为 训练 集 (trainset) ， 测 试 集 (testset) 。 最 后 ， 通 过 dim 函 数 ， 可 知 总 的 样本 数 为 3333， 其 中 trainset 训 练 数据 集 包 含 了 2315 个 样 例 ，testset 测 试 数据 集 包 含 了 1018 个 样 例 。 


4. 扩 展 
可 以 使 用 split 浮 数 同 时 完成 训练 及 测试 数据 集 的 划分 过 程 ， 通 过 设置 数据 集 的 百分比 和 分 割 种 子 ，split 命 令 能 够 让 用 户 很 轻松 地 完成 划分 这 两 个 数据 集 的 任务 。 
> split.data = function(data, p = 0.7, s = 666)( 
- set.seed(ís) 


index = sample(1:dim(data) 11) 
train data[index[1:floor(dim(data) [1] * p)], ] 


- test = data[index[((ceiling(dim(data) [1] * p)) + 1):dim(data) [111], ] 


十 return(list(train = train, test = test)) 


5.3 ”使 用 递归 分 割 树 建立 分 类 模型 


分 类 树 对 分 类 结果 的 预测 是 基于 一 个 或 多 个 输入 变量 并 结合 划分 条 件 完成 的 。 分 裂 过 程 从 分 类 树 树 根 节点 开始 : 在 每 一 个 节点 ， 算 法 将 根据 划分 条 件 检 查 输入 变量 是 否 需 要 继续 向 左 子 树 或 向 右 子 树 递 


归 地 进行 划分 ， 当 到 达 分 类 树 的 任意 叶子 节点 (终点 ) 时 ， 停 止 分 裂 。 本 节 将 介绍 如 何在 顾客 churn 数 据 集 上 应 用 递归 分 割 树 算法 。 
1. 准 备 


读者 需要 完成 之 前 小 节 介 绍 的 全 部 操作 ， 并 将 churn 数 据 集 分 成 训练 (trainset) 和 测试 (testset) 两 个 子 集合 ， 每 个 子 集合 都 必须 包含 17 个 
2. 操 作 
执行 以 下 步骤 划分 churn 数 据 集 得 到 训练 和 测试 数据 集 : 
1) 载 入 rpart 包 : 
> library (rpart) 
2) 使 用 rpart 函 数 建立 一 个 分 类 树 模型 
> churn.rp = rpart (churn ~ ., data-trainset) 
3) 输入 churn.rp 命 令 得 到 分 类 树 节点 细节 信息 : 
» churn.rp 


4) REF, WAprintcph št ERRES% 


> printcp(churn.rp) 


Classification tree: 


rpart(formula - churn - ., data - trainset) 


Variables actually used in tree construction: 
[1] international plan number customer service calls 
[3] total day minutes total eve minutes 
[5] total intl calls total intl minutes 


[7] voice mail plan 


Root node error: 342/2315 = 0.14773 
n= 2315 

CP nsplit rel error xerror xstd 
1 0.076023 0 1.00000 1.00000 0.049920 
2 0.074561 2 0.84795 0.99708 0.049860 
3 0.055556 4 0.69883 0.76023 0.044421 
4 0.026316 7 0.49415 0.52632 0.037673 
5 0.023392 8 0.46784 0.52047 0.037481 
6 0.020468 10 0.42105 0.50877 0.037092 
7 0.017544 1 0.40058 0.47076 0.035788 
8 0.010000 12 0.38304 0.47661 0.035993 


5) 接 下 来 , WaFdplotcpeESUA bl EES: 


» plotcp(churn.rp) 


size of tree 
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inf 0.004 0.038 0.025 0.022 0.019 0.013 





6) 最 后 ， 使 用 ummary 函 数 来 检验 已 建立 的 模型 : 


> summary (churn.rp) 


3. 原 理 


本 节 使 用 rpart 包 里 的 递归 分 割 树 构建 一 个 分 类 树 模 型 。 递 归 分 割 树 算法 包括 两 个 步 又: 递归 和 分 割 。 在 决策 归纳 过 程 中 ， 我 们 曾 探讨 过 使 用 统计 评估 方法 (简单 说 就 是 一 个 “是 / 否 ” 问 题 ) 基于 评价 
结果 将 数据 划分 成 不 同 部 分 。 然 后 ， 当 我 们 确定 了 子 节点 后 ， 就 能 重复 执行 分 裂 直至 满足 算法 终止 条 件 。 


例如 ， 图 2 中 所 示 样 例 数据 根据 问题 “f1 是 否 小 于 X” 的 结果 ， 在 根 节点 被 划分 成 两 个 部 分 ， 当 回答 为 Yes 时 ， 数 据 被 归 入 左 子 节点 ， 否 则 被 归 类 到 右 子 节点 。 接 下 来 ， 算 法 将 继续 根据 问题 “f2 是 否 小 


FY 


小 。 


的 结果 划分 左 子 节点 的 数据 : 
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在 第 一 步 ， 我 们 调用 library 函 数 加 载 rpart 包 ， 然 后 ， 将 churn 变 量 作为 分 类 变量 (类 标号 ) ， 剩 下 的 其 他 变量 作为 输入 特征 变量 ， 建 立 相应 的 分 类 模型 。 
模型 建 好 后 ， 读 者 可 以 输入 模型 名 称 churn.rp 来 显示 分 类 树 节点 的 细节 信息 。 在 所 输出 的 节点 信息 中 ，n 代 表 样 本 大 小 ，loss 为 分 类 错误 的 代价 ，yva 为 分 类 结果 (本 例 中 


“no” 和 “yes”) ，yprob 为 两 类 的 百分比 (左边 的 值 为 类 标号 为 “no” 的 样 例 百分比 ， 右 边 的 值 为 类 标号 为 “yes” 的 样 例 百 分 比 ) 。 


接 下 来 ， 调 用 printcp 函 数 输出 树 模型 的 复杂 性 参数 。 我 们 可 以 从 printcp 命 令 的 执行 结果 找到 CP 值 ， 该 复杂 性 参数 可 以 作为 控制 树 规模 的 每 罚 因 子 。 简 而 言 之 ，CP 的 值 越 大 ， 分 裂 的 规模 (nsplit) 越 
输出 参数 (rel error) 指示 了 当前 分 类 模型 树 与 空 树 之 间 的 平均 偏差 比值 。xerror 的 值 是 通过 使 用 10- 交 叉 检 验 得 到 的 相对 误差 ，xstd 表 示 相 对 误差 的 标准 差 。 


为 了 使 CP (成 本 复杂 度 参数 ) 表 更 具 可 读 性 ， 我 们 使 用 plotcp 绘 制 出 CP 表 的 信息 图 。 如 截屏 结果 (步骤 ?5) ) 所 示 ， 底 部 X 轴 为 cp 值 ，y 轴 为 相对 错误 ， 项 部 X 轴 为 树 的 大 小 。 虚 线 值 为 标准 偏差 的 上 


。 从 截屏 结果 我 们 能 够 得 知 当 树 的 大 小 为 12 时 ， 最 小 交叉 检验 的 误差 。 


我 们 也 可 以 使 用 ummary 函 数 来 展现 函数 调用 ， 显 示 建 立 的 树 模型 、 变 量 重要 性 的 成 本 复杂 度 表 ， 这 将 有 助 于 用 户 更 好 地 理解 分 类 树 中 最 重要 的 参数 (总 体 为 100) ， 以 及 每 个 节点 的 详细 信息 。 


使 用 决策 树 分 类 的 优势 在 于 其 非常 灵活 也 易于 理解 ， 可 以 同时 解决 分 类 和 回归 两 种 问题 ， 决 策 树 是 一 种 无 参 算法 ， 这 意味 着 用 户 不 需要 担心 数据 是 否 为 线性 可 分 。 决 策 树 算法 的 不 足 主 要 是 它 容易 产生 


A 
IIR 
偏差 和 过 度 适 应 问题 。 不 过 ， 条 件 推理 树 可 以 用 来 克服 偏差 问题 ， 而 过 度 适 应 可 以 借助 随机 森林 方法 或 树 的 前 枝 来 解决 。 


4. 扩 展 


- 更 多 关于 tpatt、pbtintcp 以 及 summaty 函 数 的 信息 ， 可 以 调用 help 函 数 得 到 : 


» ?rpart 
» ?printcp 
» ?summary.rpart 


C50 包 也 能 够 提供 决策 树 和 基于 规则 的 模型 。 如 果 用 户 对 这 个 包 有 兴趣 ， 可 以 从 文档 http://ctran.fptoject.ote/web/packases/C50/C50.pdf 中 获得 更 多 帮助 。 


5.4. BIDEE 
从 上 一 节 中 ， 我 们 了 解 了 如 何以 文本 形式 输出 分 类 树 信息 ， 为 了 让 机 的 可 理解 程度 更 高 ， 可 以 使 用 plot 范 数 绘制 分 类 树 的 。 


1. 准 备 

读者 需要 执行 完 之 前 所 要 求 的 操作 步骤 得 到 一 个 分 类 模型 ， 并 将 模型 存 入 churn.rp 变 量 中 。 
2 

执行 以 下 步骤 以 完成 分 类 树 的 可 视 化 : 


1) 调用 plot 函 数 和 text 函 数 绘制 分 类 树 : 


> plot (churn.rp, margin- 0.1) 
> text (churn.rp, all=TRUE, use.n = TRUE) 


total day minutes»-265 5 
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分 类 树 图 
2) 读者 可 以 改变 uniform、branch 以 及 margin 参 数 的 值 来 调整 显示 的 结果 : 


> plot(churn.rp, uniform-TRUE, branch-z0.6, margin-0.1) 


» text(churn.rp, all-TRUE, use.n - TRUE) 
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调整 分 类 树 的 输出 
3. 原 理 


本 节 展示 了 如 何 调 用 plot 遂 数 绘制 分 类 树 。plot 函 数 能 够 实现 简单 的 分 类 树 可 视 化 ， 读 者 也 可 以 调用 text 浮 数 在 图 中 添加 文字 说 明 。 


在 步骤 1) 的 图 中 ， 我 们 将 margin 赋 值 为 0.1， 这 样 能 够 在 边界 周围 增加 一 个 白色 的 边框 ， 防 止 要 显示 的 文本 被 图 形 边缘 截断 。 从 图 可 知 ， 分 支 长 度 代表 偏差 下 降 的 相对 大 小 ， 可 以 使 用 文本 函数 为 节点 
和 分 支 增加 标记 。 在 默认 情况 下 ， 文 本 函数 能 够 在 每 一 个 分 裂 点 增加 分 裂 条 件 说 明 ， 同 时 为 每 个 叶 节点 增加 类 标号 的 标注 。 为 了 在 树 图 上 增加 其 他 信息 ， 可 以 将 所 有 参数 设 为 TRUE， 这 样 能 为 所 有 节点 增加 
一 个 标记 。 此 外 ， 还 可 以 设置 use.n=TRUE， 得 到 每 个 类 别 (no 和 yes) 的 实际 观测 样 例 个 数 。 


如 步骤 2) 的 图 所 示 ， 将 branch 选 项 设 为 0.6， 为 每 一 个 已 画 好 的 分 支 增加 一 个 shoulder。 另 外 ， 为 了 显示 等 宽 的 分 支 而 不 是 偏差 下 降 的 相对 大 小 ， 可 以 将 uniform 选 项 设 为 TRUE。 步 又 2) 的 图 显示 了 


一 个 拥有 短 shoulder 等 宽 分 支 的 分 类 树 。 
4. 扩 展 


- 读者 还 可 以 使 用 ? plottpatt 命 令 来 了 解 更 多 有 关 分 类 树 图 形 显示 的 内 容 。 在 帮助 文档 中 ， 还 包括 如 下 参数 unifortm、btranch、comptess、nhspace、tmatgin 以 及 minbtanch 的 设置 方法 ， 通 过 改变 以 上 参数 的 


值 ， 能 够 调整 分 类 树 的 形状 。 


5.5 ”评测 地上 归 分 割 树 的 预测 能 力 
在 之 前 的 内 容 中 已 经 介绍 了 如 何 构建 一 棵 分 类 树 ， 借 助 分 类 树 ， 我 们 能 够 预测 新 观测 值 的 类 别 类 标签 。 在 进行 预测 前 ， 我 们 先 通 过 在 测试 数据 集 上 建立 一 张 分 类 表 来 评测 分 类 树 的 预测 能 力 。 本 节 将 介 
绍 如 何 调用 predict 国 数 和 table 函 数 分 别 生成 预测 表 以 及 实际 类 标号 表 ， 基 于 此 再 生成 混淆 和 矩阵 来 评测 模型 的 性 能 。 
1. 准 备 
读者 需要 执行 完 前 述 小 节 中 所 有 步骤 以 获得 分 类 模型 churn.rp。 此 外 ， 还 需要 准备 好 本 章 5.1 节 提 到 的 训练 数据 集 trainset 以 及 测试 数据 集 testset。 
2. 操 作 
执行 以 下 操作 以 完成 对 分 类 树 的 预测 性 能 验证 : 


1) 调用 predict 函 数 生成 测试 数据 集 的 类 标号 预测 表 : 
> predictions = predict (churn.rp, testset, type="class") 
2) 调用 table 函 数 建立 测试 数据 集 的 分 类 表 : 
> table(testset$churn, predictions) 
predictions 
yes no 


yes 100 141 
no 18 859 


3) WFBcarettJiftBSconfusionMatrixES2ZA 4E RoETSABIM : 


> library(caret) 


> confusionMatrix(table(predictions, testset$churn)) 


Confusion Matrix and Statistics 


predictions yes no 
yes 100 18 
no 41 859 


Accuracy : 0.942 
95% CI : (0.9259, 0.9556) 
No Information Rate : 0.8615 
P-Value [Acc » NIR] : « 2.2e-16 


Kappa : 0.7393 
Mcnemar's Test P-Value : 0.004181 


Sensitivity : 0.70922 
Specificity : 0.97948 
Pos Pred Value : 0.84746 
Neg Pred Value : 0.95444 


Prevalence : 0.13851 
Detection Rate : 0.098223 


Detection Prevalence : 0.11591 


Balanced Accuracy : 0.84435 


'"Positive' Class 


yes 


3. 原 理 

本 节 我 们 使 用 了 predict 函 数 构建 了 一 个 分 类 模型 churn.rp， 来 预测 测试 数据 集 testset 中 样 例 可 能 的 类 标号 。 预 测 类 别 (类 标号 ) 可 能 被 编码 为 no 或 yes。 然 后 使 用 table 函 数 在 测试 数据 集 上 建立 了 一 个 
分 类 表 。 从 分 类 表 可 以 得 知 ，859 个 样 例 被 正确 预测 为 no，18 个 样 例 被 错误 预测 为 yes。100 个 样 例 被 正确 预测 为 yes， 但 是 有 41 个 样 例 被 错误 预测 为 no0。 进 一 步 地 ， 我 们 使 用 caret 包 的 confusionMatrix 函 
数 来 评测 分 类 模型 的 性 能 。 
4. 扩 展 

. 读者 可 以 调用 ? confusionMatrix 命 令 来 更 深入 地 了 解 如 何 使 用 混淆 给 阵 来 评测 模型 性 能 。 


.如果 读者 对 混 消 矩阵 输出 感 兴趣 ， 可 以 参考 维基 百科 有 关 Confusion_mattix 的 内 容 (http://en.wikipedia.org/wiki/Confusion_matrix) o 


5.6 EIDEM 
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1. 准 备 
完成 前 述 章节 的 操作 ， 得 到 分 类 模型 并 将 其 人 存 入 churn.rp 变 量 中 。 
2. 操 作 
执行 以 下 操作 以 完 成 对 分 类 树 的 剪 枝 : 
1) 找到 分 类 树 模 型 的 最 小 交叉 检验 误差 : 
> min(churn.rp$cptable[,"xerror"]) 
[1] 0.4707602 


2) 定位 交叉 检验 误差 最 小 的 记录 : 


> which.min(churn.rp$cptable[,"xerror"]) 


7 
3) 获取 交叉 检验 误差 最 小 记录 的 成 本 复杂 度 参数 值 : 


> churn.cp = churn.rp$cptable[7,"CP"] 
» churn.cp 


[1] 0.01754386 
4) 设置 参数 cp 的 值 与 交叉 检验 误差 最 小 记录 的 CP 值 相 同 以 进行 剪 枝 : 
> prune.tree = prune(churn.rp, cp= churn .cp) 


5) 调用 plot 和 text 函 数 绘制 分 类 树 : 


> plot(prune.tree, margin- 0.1) 
» text(prune.tree, all-TRUE , use.n-TRUE) 
6) BE Rok, BeEHILAECT OSSIBUS 2S BUTS RAE pA RKR: 


> predictions = predict(prune.tree, testset, type-"class") 


» table(testset$churn, predictions) 


predictions 
yes no 
yes 95 46 
no 14 863 
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7) 最 后 ， 读 者 可 以 基于 上 述 分 类 表 生 成 混淆 矩阵 : 


> confusionMatrix(table(predictions, testset$churn)) 


Confusion Matrix and Statistics 


predictions yes no 
yes 95 14 
no 46 863 


Accuracy : 0.9411 
95% CI : (0.9248, 0.9547) 
No Information Rate : 0.8615 
P-Value [Acc > NIR] : 2.786e-16 


Kappa : 0.727 


Mcnemar's Test P-Value : 6.279e-05 
Sensitivity : 0.67376 
Specificity : 0.98404 

Pos Pred Value : 0.87156 

Neg Pred Value : 0.94935 
Prevalence : 0.13851 

Detection Rate : 0.09332 
Detection Prevalence : 0.10707 
Balanced Accuracy : 0.82890 


'Positive' Class : yes 


3. 原 理 


本 节 探 讨 了 分 类 树 剪 枝 操 作 ， 通 过 甬 梳 可 以 避免 过 度 适 应 问题 以 得 到 一 个 更 稳健 的 分 类 模型 。 我 们 首先 用 cptable 导 入 交叉 检验 误差 最 小 的 记录 ， 然 后 从 中 抽取 记录 的 CP 值 ， 并 赋值 给 churn.cp。 接 下 
来 将 churn.cp 作 为 prune 函 数 的 参数 对 分 类 树 进行 部 枝 ， 最 后 调用 plot 函 数 来 绘制 吝 枝 后 的 分 类 树 。 很 明显 经 过 剪 校 的 分 类 树 其 分 支 要 少 于 原始 分 类 树 的 分 校 个 数 。 最 后 ， 通 过 剪 校 分 类 树 的 分 类 表 和 混淆 
和 矩 阵 ， 可 知 剪 校 分 类 树 的 正确 率 为 0.9441， 了 略 低 于 原始 分 类 树 的 分 类 正确 率 (0.942) ， 这 说 明 由 于 去 掉 了 部 分 分 裂 条 件 ， 剖 枝 后 的 分 类 树 其 效率 未 必 优 于 原始 分 类 树 (因此 ， 用 户 应 该 检查 募 枝 对 分 类 树 灵 
敏 度 和 完整 性 方面 的 影响 ) ， 不 过 剪 校 分 类 树 的 优势 在 于 它 对 分 类 模型 的 限定 更 模糊 一 点 ， 这 样 可 以 避免 过 度 适应 问题 。 


4. 扩 展 


对 希望 了 解 更 多 有 关 成 本 复杂 度 剪 校 的 读者 ， 请 参考 维基 百科 上 的 文档 “ 齐 梳 (决策 树 ) " : http://en.wikipedia.org/wiki/Pruning_decision trees, 


5.7 ”使 用 条 件 推理 树 建立 分 类 模型 


除了 传统 决策 树 (rpart) 算法 ， 条 件 推理 树 (ctree) 是 另外 一 类 比较 常用 的 基于 树 的 分 类 算法 。 与 传统 决策 树 方法 类 似 ， 条 件 推理 树 也 是 通过 对 非 独立 变量 进行 单 变量 分 裂 来 实现 对 数据 的 递归 划分 
处 理 。 条 件 推理 树 与 传统 决策 树 的 不 同 在 于 ， 条 中 推理 树 选择 分 裂变 量 时 依据 的 是 显著 性 测量 的 结果 ， 而 不 是 采用 信息 最 大 化 方法 (rpart 里 使 用 了 基尼 系数 ) 。 本 节 将 探讨 如 何 使 用 条 件 推理 树 来 构建 分 类 
模型 。 


1. 准 备 
读者 需要 准备 好 前 述 章节 介绍 的 训练 数据 集 trainset 和 测试 数据 集 testset。 
2. 操 作 
执行 以 下 步骤 建立 条 件 推理 树 : 
1) 首先 , 调用 party 包 的 ctree 命 令 构 建 分 类 模型 : 
> library (party) 
> ctree.model = ctree(churn ~ . , data = trainset) 


2) 检查 树 是 否 建 好 : 


> ctree.model 


本 节 探 讨 基 于 条 件 推理 树 建立 分 类 树 。 使 用 ctree 的 方法 和 使 用 rpart 方 法 一 样 。 因 此 当 需 要 解决 分 类 问题 时 ， 读 者 能 够 很 简单 地 通过 使 用 条 件 推 理 树 或 传统 决策 树 来 检测 分 类 能 力 。 接 下 来 检查 建立 的 
模型 ， 获 得 分 类 树 节点 的 详细 信息 。 由 模型 可 知 ，ctree 包 提供 的 信息 类 似 于 分 裂 条 件 ， 包 括 标准 (1-p-value) 、 统 计 (测试 统计 ) 和 权重 (节点 的 案例 权重 ) ， 而 ctree 包 通过 summary 函 数 提供 的 信息 
不 如 rpart 包 丰富 。 


4 扩展 


. 读者 可 以 使 用 help 函 数 了 解 “二 又 树 类 ”的 定义 以 及 二 又 树 的 更 多 性 质 : 


> help("BinaryTree-class") 


5.8 ”条 件 推理 树 可 钢化 


与 rpart 类 似 ，party 包 也 为 用 户 提 供 了 条 件 推理 树 的 可 视 化 命令 。 接 下 来 将 介绍 如 何 实现 条 件 推理 树 的 可 视 化 。 
1. 准 备 

读者 需要 完成 前 面 内容 以 获得 条 件 推理 树 模型 : ctree.model。 此 外 ， 还 需要 在 R 会 话 中 准备 好 训练 数据 集 trainset 和 测试 数据 集 testset。 
2. 操 作 

完成 以 下 操作 进行 条 件 推理 树 的 可 视 化 : 


1) 调用 plot 命 令 对 前 面 得 到 的 ctree.model 进 行 可 视 化 处 理 : 


> plot(ctree.model) 
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churn 数 据 集 的 条 件 推 理 树 
2) 通过 减少 输入 特征 参数 后 ， 再 重新 绘制 分 类 树 ， 得 到 一 棵 简化 的 条 件 推 理 树 : 


> daycharge.model = ctree(churn ~ total day charge, data = 
trainset) 


» plot(daycharge.model) 


(ic day c [ge 
p « 0.001 
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将 total_day_charge 作 为 唯一 分 割 条 件 得 到 的 条 件 推 理 树 


3. 原 理 


要 查看 条 件 推理 树 节点 的 细节 信息 ， 可 以 调用 plot 函 数 绘制 已 建立 的 分 类 模型 。 输 出 结果 图 可 以 显示 出 每 个 中 间 节 点 的 相应 依赖 的 变量 名 称 及 其 p 值 ， 分 有 裂 条 件 在 左右 的 分 校 上 有 所 显示 。 叶 子 节点 上 可 
显示 不 同类 别 样本 个 数 n， 以 及 样 例 属于 分 类 为 0 或 1 的 概率 。 


以 步骤 2) 中 显示 结果 为 例 ， 我 们 首先 选择 total day_charge 作 为 唯一 特征 ，churn 为 类 标签 建立 分 类 模型 。 从 图 中 所 输出 的 分 类 树 可 知 ， 当 total_ day charge 的 值 大 于 48.18 时 ， 节 点 9 处 亮 灰 区 域 的 面 
积 要 大 于 深 灰 色 面 积 ， 这 意味 着 日 消费 额 高 于 48.18 的 顾客 其 流失 概率 非常 大 (类 标签 为 yes) 。 


4 扩展 


plot BinatyTree 函 数 能 够 完成 条 件 推理 树 的 可 视 化 ， 如 果 读 者 硕 望 了 解 如 何 调整 分 类 树 的 布局 ， 可 以 使 用 help 函 数 读 取 以 下 文档 : 


> ?plot.BinaryTree 


5.9 评测 条 件 推理 树 的 预测 能 力 


在 搭建 好 条 件 推理 树 分 类 模型 后 ， 就 可 以 使 用 treeresponse 和 predict 函 数 预 测 测试 数据 集 testset 的 类 标号 ， 并 进一步 使 用 分 类 表 和 混淆 矩阵 来 评价 算法 的 预测 能 
1. 准 备 

读者 需要 执行 完 前 述 相关 步骤 获得 条 件 推理 树 模型 ctree.model， 并 在 一 个 R 会 话 中 准备 好 trainset 和 testset 两 个 数据 集 。 
2. 操 作 


执行 以 下 操作 完成 对 条 件 推理 树 预 测 能 力 的 评测 : 


1) 使 用 predict 函 数 为 testset 数 据 集 进行 标记 : 


> ctree.predict = predict(ctree.model ,testset) 


» table(ctree.predict, testset$churn) 


ctree.predict yes no 
yes 99 15 
no 42 862 


2) 使 用 caret 包 的 confusionM atrix 命 令 完 成 对 预测 结果 的 性 能 评测 : 


> confusionMatrix(table(ctree.predict, testset$churn)) 


Confusion Matrix and Statistics 


ctree.predict yes no 
yes 99 15 
no 42 862 


Accuracy : 0.944 


95$ CI : (0.9281, 0.9573) 
No Information Rate : 0.8615 


P-Value [Acc > NIR] : < 2.2e-16 


Kappa : 0.7449 
Mcnemar's Test P-Value : 0.0005736 


Sensitivity : 0.70213 
Specificity : 0.98290 
Pos Pred Value : 0.86842 
Neg Pred Value : 0.95354 
Prevalence : 0.13851 
Detection Rate : 0.09725 


Detection Prevalence : 0.11198 


Balanced Accuracy : 0.84251 


'Positive' Class : yes 
3) 调用 treeresponse 函 数 ， 输 出 一 列 类 概率 : 


> tr = treeresponse(ctree.model, newdata = testset[1:5,]) 
^ Er 

[[11] 

[1] 0.03497409 0.96502591 


[ [2]] 
[1] 0.02586207 0.97413793 


[[3]] 
[1] 0.02586207 0.97413793 


[ [41] 
[1] 0.02586207 0.97413793 


[[51] 
[1] 0.03497409 0.96502591 


3. 原 理 


本 节 首 先 探讨 了 使 用 prediction 函 数 实现 测试 数据 集 的 标记 (类 别 号 ) ， 然 后 调用 table 函 数 生成 分 类 表 ， 最 后 使 用 caret 包 内 置 的 confusionMatrix 函 数 来 评价 预测 性 能 。 


除了 predict 函 数 ， 也 可 以 使 用 treeresponse 函 数 来 评估 类 概率 ， 该 函数 通常 会 选择 概率 更 高 的 类 标号 来 标记 数据 。 本 节 样 例 展 示 了 使 用 测试 数据 集 testset 中 前 五 条 记录 来 得 到 分 类 概率 的 估计 值 。 调 用 
treeresponse 函 数 可 以 得 到 这 五 个 概率 的 具体 值 ， 读 者 可 以 根据 这 些 值 来 判断 样 例 的 类 标号 。 


4 扩展 


.如果 使 用 ptedict 函 数 ， 可 以 指明 其 参数 类 型 为 fesponse、Pptob 或 者 node。 当 函数 参数 类 型 为 ptfob 时 (例如 ，ptedict (http:/ /www.hzcoutse.com/resoutce/readBook? 
path=/opentesources/teach_ebook/uncompressed/15677/OEBPS/Text/...type= i prob" ) ) ， 使 用 predict 函 数 能 够 得 到 与 tteetesponse 函 数 一 样 的 执行 结果 。 


5.10 ”使 用 k 近 邻 分 类 算法 


k 近 邻 (knn) 算法 属于 一 种 无 参 惰性 学 习 方 法 。 无 参 类 算法 不 会 对 数据 的 分 布 做 任何 假设 ， 而 惰性 学 习 方 法 则 不 要 求 算法 具备 显 性 学 习 过 程 。 本 节 将 介绍 如 何 应 用 k 近 邻 方法 来 处 理 churn 数 据 集 。 
1. 准 备 

读者 需要 按 前 述 要 求 准备 好 训练 和 测试 数据 集 。 
之 操作 

执行 以 下 步骤 完成 用 k 近 邻 算法 对 churn 数 据 集 分 类 : 


1) 安装 class 包 ， 并 装载 到 R 会 话 中 : 


> install.packages ("class") 


» library(class) 


2) 将 训练 和 测试 数据 集中 的 voice_mail_plan 和 international_plan 属 性 原来 的 值 yes 和 no 分 别 用 1 和 0 代 蔡 : 


> levels(trainset$international plan) = list("0"="no", "1"="yes") 


> levels(trainset$voice mail plan) = list("0"="no", 


Tsim 
> levels(testset$international plan) = list ("0"="no", 


"1" ="yes " ) 
> levels(testset$voice mail plan) = list("O0"z"no", "1"="yes") 


3) 使 用 knn 分 类 算法 处 理 训练 和 测试 数据 集 : 


> churn.knn = knn(trainset[,! names(trainset) 


win% c("churn")], 
testset[,! names(testset) %in% c("churn")], 


trainset$churn, k=3) 


4) WFisummaryER2A4S SUPR ES BAT RA : 


> summary (churn .knn) 
yes no 


77 941 


5) yiFBtablegq2s857 255b I : 


» table(testset$churn, churn.knn) 
churn.knn 
yes no 
yes 44 97 
no 33 844 


6) 调用 confusionMatrix 国 数 得 到 混淆 和 矩阵: 


> confusionMatrix(table(testset$churn, churn.knn)) 


Confusion Matrix and Statistics 


churn.knn 

yes no 
yes 44 97 
no 33 844 


Accuracy : 0.8723 
95% CI : (0.8502, 0.8922) 
No Information Rate : 0.9244 
P-Value [Acc > NIR] : 1 


Kappa : 0.339 
Mcnemar's Test P-Value : 3.286e-08 


Sensitivity : 0.57143 
Specificity : 0.89692 

Pos Pred Value : 0.31206 

Neg Pred Value : 0.96237 
Prevalence : 0.07564 

Detection Rate : 0.04322 
Detection Prevalence : 0.13851 


Balanced Accuracy : 0.73417 


'Positive' Class : yes 


3. 原 理 


knn 算 法 采用 相似 性 (距离) 测量 来 训练 所 有 样 例 并 对 新 到 达 样 例 进行 分 类 标记 。 例 如 ， 相 似 性 测量 可 以 采用 以 下 公式 : 





C BA AGES: 
. 曼哈顿 距离 : Dalay) 


knn 算 法 中 ， 新 到 达 样 本 将 被 分 配 到 某 个 在 k 近 邻 中 普通 的 标号 (类 ) 中 。 如 果 k=1， 新 样本 将 会 被 分 配 到 距离 其 最 近 的 类 别 中 。 算 法 仅 要 求 用 户 输入 k 的 值 ， 如 果 输 出 的 k 值 比较 小 ， 有 可 能 产生 过 度 适 
应 的 问题 。 相 反 ， 如 果 给 的 k 值 过 大 ， 则 有 可 能 导致 低 度 拟 合 。 可 以 通过 交叉 检验 方法 得 到 一 个 比较 合适 的 k 值 。 


knn 算 法 的 优势 在 于 : 

` 学 习 成 本 为 0; 

. 无 参 意 味 着 用 户 不 需要 假设 数据 的 分 布 类 型 ; 

. 只 要 对 给 定 样 例 选取 合适 的 距离 测量 方法 ， 算 法 就 可 以 处 理 任意 类 型 的 数据 。 

knn 算 法 的 不 足 在 于 : 

. 算法 结果 难以 理解 ; 

" 如 果 数 据 集 比较 大 ， 算 法 计算 代价 非常 高 ; 

- 算法 性 能 依赖 于 数据 集 维度 大 小 ， 如 果 要 处 理 高 维 数据 ， 应 该 先 对 数据 进行 降 维 操作 以 提高 算法 的 过 程 性 能 。 


knn 算 法 的 调用 与 前 述 基 于 树 的 分 类 方法 没有 明显 差异 。 不 过 ， 基 于 树 的 算法 能 够 向 用 户 展示 一 棵 决策 树 模 型 ， 而 knn 算 法 的 输出 仅 包括 分 类 因素 的 信息 。 另 外 ， 在 使 用 knn 算 法 构建 分 类 模型 之 前 ， 应 
该 首先 将 数据 集中 的 字符 类 型 属性 预 处 理 成 整 型 ， 因 为 k 近 邻 算法 需要 计算 样 例 之 间 的 距离 。 通 过 指定 k= 3 建立 分 类 模型 ， 则 意味 着 样 全 有 可 能 被 分 配 到 距离 其 最 近 的 三 个 相 邻 复 中 。 分 类 模型 建 好 以 后 ， 就 
可 以 借助 测试 数据 集 和 预测 因子 作为 输入 来 生成 分 类 表 ， 并 基于 分 类 表 得 到 混淆 矩阵 。 从 混淆 和 矩阵 的 输出 可 知 算法 精确 度 为 0.8273， 比 前 述 两 种 基于 树 的 分 类 算法 效果 都 要 差 一 点 。 不 过 ， 仪 赁 精确 度 还 是 
不 能 区 分 模型 的 优势 ， 用 户 还 应 该 进一步 比较 算法 的 特异 度 和 灵敏 度 。 


4 扩展 


. 及 中 还 有 一 个 名 为 kknn 的 包 ， 能 够 提供 带 权重 的 K 近 邻 分 类 算法 、 回 归 及 聚 类 。 读 者 可 以 从 文档 http://ctran.fptoject.ote/web/packases/kknn/kknn.pdf 中 了 解 更 多 有 关 kknn 包 的 信息 。 


5.11 ”使 用 逻辑 回归 分 类 算法 


逻辑 回归 属于 基于 概率 统计 分 类 模型 的 方法 ， 是 根据 一 个 或 多 个 特征 进行 类 别 标 号 预测 。 人 在 R 语 言 中 ， 可 以 通过 调用 logit 函 数 执行 逻辑 回归 分 类 算法 并 预测 输出 概率 。 通 过 调用 glm 函 数 将 family 参 数 也 
就 是 响应 分 布 指定 为 bjnominal， 就 使 用 逻辑 回归 算法 。 本 节 将 介绍 如 何 使 用 逻辑 回归 完成 数据 分 类 。 


1. 准 备 


同 前 述 内 容 一 样 准备 好 训练 数据 集 和 测试 数据 集 。 
2. 操 作 
执行 以 下 步骤 实现 对 churn 数 据 集 的 逻辑 回归 分 类 : 


1) 将 family 设 置 为 binominal， 然 后 调用 glm 函 数 处 理 训 练 数据 集 trainset， 将 churn 变 量 作为 类 标号 ， 剩 下 的 变量 作为 输入 特征 : 


> fit = glm(churn ~ ., data = trainset, family-binomial) 
2) 调用 summary 函 数 得 到 所 构建 的 逻辑 回归 模型 的 特征 信息 : 
> summary (fit) 


Call: 
glm (formula = churn = ., family = binomial, data = trainset) 


Deviance Residuals: 
Min 1Q Median 31Q Max 
-3.1519 0.1983 0.3460 0.51865 2.1284 


Coefflcients: 

Estimate Std. Error z value 
Prí(»|z|) 
(Intercept) B.3462866 0.8364514 9.978 < že- 
16 
international planyes -2.0534243 0.1726694 -11.892  « łe- 
16 
volce mail planyes 1.3445887 0.6618905 2.031 
0.042211 
number vmail messages -0.0155101 20.0209220 -0.741 
0.458496 
total day minutes 0.2398946  31.9168466 0.061 
0.551163 
total day calls -0.0014003  0.0032769 -0.427 
0.669141 
total day charge -1.4855284 23.0402950 -0.064 
0.948592 
total eve minutes 0.3600678 1.9342825 0.186 
0.852379 
total eve calls -0.0028484 3 0.0033061 -0.862 
0.388928 
total eve charge -4.3204432 22.7644698 -0.190 
0.849475 
total night minutes 0.4431210  1.0478105 0.423 
0.672367 
total night calls 0.0003978 0.0033188 0.120 
0.504588 
total night charge -9.9162795 23.2836376  -0.426 
0.670188 
total intl minutes 0.4587114 6.3524560 0.072 
0.942435 
total intl calls 0.1065264 0.0304318 3.500 
0.000464 
total intl charge -2.0803428 23.5262100 -0.088 
0.929538 


number customer service calls -0.5109077 0.0476289 -10.727 < 2e- 


16 


(Intercept) EET 
international planyes ++ 
voice mail planyes - 


number vmall messages 
total day minutes 

total day calls 

total day charge 
total eve minutes 

total eve calls 

total eve charge 

total night minutes 

total night calls 

total night charge 
total intl minutes 

total intl calls x 
total intl charge 

number customer service calls *** 


Bignif. codes: 0 '****' 0,001 '**' D.01 '*' 0.05 '.'D.1' ' 1 
(Dispersion parameter for binomial family taken to be 1) 


Hull deviance: 1938.8 on 2314 degrees of freedom 
Residual deviance: 1515.3 on 2298 degrees of freedom 
AIC: 1549.3 


Number of Fisher Scoring iterations: 6 


3) 找到 分 类 模型 中 包含 的 可 能 导致 错误 分 类 的 非 显 著 变 量 ， 仪 使 用 显著 的 变量 来 训练 分 类 模型 


> fit = glm(churn ~ international plan + voice mail plan+total 
intl calls«number customer service calls, data = trainset, 
family-binomial) 


» summary(fit) 


Call: 
gim(formula = churn ~ international plan + voice mail plan + 


total intl calls + number customer service calls, family = 
binomial, 


data s trainset) 


Deviance Residuals: 


Min 1Q Median 30 


-2.7308 0.3103 0.4196 0.5381 1.6716 


Coefficients: 


eO oo oc oc doc 


Estimate Std. 
(Intercept) 2.32304 
international planyes -2.00346 
voice mail planyes 0.79228 
total intl calls 0.08414 
number customer service calla -0.44227 

Pr(»|z|) 
(Intercept) z 2e-16 *** 
international planyes « Ze-l6 *** 
voice mail planyes 1.32e-06 *** 
total intl calls 0.00329 ** 
number customer service calls < 2e-16 *** 
Signif. codes: 
0 es: des: **rvice calls < '. es: 


Error z value 


.16770 313.852 
.16096 -12.447 
.16380 4.837 
.02862 2.939 
.04451 -9.937 
de 


(Dispersion parameter for binomial family taken to be 1) 


Null deviance: 1938.8 on 2314 degrees of freedom 


Residual deviance: 1669.4 on 2310 degrees of freedom 


AIC: 1679.4 


Number of Fisher Scoring iterations: 5 


4) 调用 fit 使 用 一 个 内 置 模型 来 预测 testset 数 据 集 的 输出 ， 可 以 通过 调整 概率 是 否 高 于 0.5 来 改变 类 别 标记 的 输出 结果 。 


> pred = predict(fit,testset, type-"response") 


> Class = pred >.5 


5) 调用 summary 函 数 输出 二 元 的 结果 计数 ， 可 以 验证 概率 是 否 大 于 0.5: 


> summary (Class) 
Mode FALSE TRUE NA's 
logical 29 989 0 


6) 对 测试 数据 集 的 分 类 和 预测 结果 进行 计数 统计 : 


> tb = table(testset$churn,Class) 


» tb 
Class 
FALSE TRUE 
yes IS GJ 
no 11 866 


7) 将 上 一 步骤 的 统计 结果 用 分 类 表 形 式 输出 ， 并 生成 混淆 矩阵 : 


> churn.mod = ifelse(testset$churn == "yes", 1, 0) 
> pred class = churn.mod 
> pred class[pred«c-.5] = 1- pred class[pred«-.5] 
» ctb - table(churn.mod, pred class) 
> ctb 
pred class 
churn.mod 0 1 
0 866 11 
1 18 123 


» confusionMatrix(ctb) 


Confusion Matrix and Statistics 


pred class 


churn.mod 0 1 
0 866 11 
1 18 123 


Accuracy : 0.9715 

95% CI : (0.9593, 0.9808) 
No Information Rate : 0.8684 
P-Value [Acc > NIR] : «2e-16 


Kappa : 0.8781 
Mcnemar's Test P-Value : 0.2652 


Sensitivity : 0.9796 
Specificity : 0.9179 

Pos Pred Value : 0.9875 

Neg Pred Value : 0.8723 
Prevalence : 0.8684 

Detection Rate : 0.8507 
Detection Prevalence : 0.8615 
Balanced Accuracy : 0.9488 


'"Positive' Class : 0 


3. 原 理 


逻辑 回归 算法 和 线性 回归 算法 非常 相似 ， 两 者 主要 的 区 别 在 于 线性 回归 算法 中 的 变量 是 连续 型 变量 ， 而 逻辑 回归 响应 变量 是 二 分 类 变量 (名 义 变量 ) 。 使 用 逻辑 回归 算法 主要 目的 是 利用 logit 模 型 去 预 
测 与 测度 变量 相关 的 名 义 变量 的 概率 。 逻 辑 回 归公 式 如 下 : In (P/ (1-P) ) ，P 为 某 事件 发 生 概 率 。 

逻辑 回归 算法 的 优势 在 于 算法 易于 理解 ， 能 够 直接 输出 预测 模型 的 逻辑 概率 逻辑 值 以 及 结果 的 置信 和 度 区 间 ， 与 决策 树 难以 更 新 模型 不 同 ， 逻 辑 回 归 算 法 能 够 迅速 在 逻辑 回归 算法 中 合并 新 的 数据 ， 更 新 
分 类 模型 。 逻 辑 回归 算法 的 主要 不 足 在 于 其 无 法 处 理 多 重 共 线 问题 ， 因 此 解释 变量 必须 是 线性 无 关 。glm 提 供 了 一 个 通用 的 线性 回归 模型 ， 可 以 通过 设置 family 参 数 来 得 到 。 当 family 参 数 被 设置 为 
binomial 回 归 时 ， 可 以 实现 二 元 分 类 。 

可 以 利用 trainset 数 据 集训 练 得 到 一 个 逻辑 回归 模型 ， 将 Churn 变 量 作为 类 标号 ， 其 他 变量 为 输入 特征 ， 同 时 将 family 设 置 为 binomial。 调 用 summary 函 数 输出 模型 特征 信息 ， 从 结果 可 知 ， 某 些 不 显 
著 的 属性 (p 值 >0.05) ， 可 能 导致 错误 的 分 类 ， 因 此 ， 在 使 用 模型 预测 时 ， 应 仅 考 虑 重要 度 较 高 的 属性 。 


接 下 来 ， 调 用 fit 函 数 预测 测试 数据 集 testset 的 类 别 响应 变量 ， 人 ff 函数 能 够 输出 类 标号 的 概率 ， 如 果 概 率 值 小 于 或 等 于 0.5， 意 味 着 预测 得 出 的 类 标号 与 测试 数据 集 的 实际 类 标号 不 相符 ， 如 果 概 率 值 大 于 
0.5， 则 说 明 两 者 是 一 致 的 。 进 一 步 ， 调 用 Summary 函 数 来 得 到 预测 得 到 的 模型 和 实际 测试 数据 集 分 类 模型 匹配 与 否 的 统计 信息 ， 最 后 为 了 生成 混淆 矩阵 ， 首 先生 成 分 类 表 ， 再 调用 confusionMatrix 得 到 详 
细 的 模型 评测 结果 。 


4 扩展 


" 如 果 需 要 获取 更 多 有 关 glm 函 数 的 信息 ， 可 以 查看 第 4 章 相关 内 容 ， 该 章 介绍 了 如 何 解释 gm 函数 的 输出 结果 。 


5.12 ”使 用 朴素 贝 叶 斯 分 类 算 ; 


朴素 贝 叶 斯 分 类 器 也 是 一 类 基于 概率 的 分 类 器 ， 它 源 于 贝 叶 斯 理论 ， 假 设 样本 属性 之 间 相 互 独立 。 本 节 将 介绍 使 用 朴素 贝 叶 斯 分 类 器 来 实现 数据 分 类 。 
1. 准 备 
如 前 所 述 ， 完 成 相关 操作 ， 获 得 训练 数据 集 和 测试 数据 集 。 


2. 操 作 


执行 以 下 步骤 ， 利 用 朴素 贝 叶 斯 分 类 器 对 churn 数 据 集 进行 分 类 : 


1) 导入 e1071 库 ， 使 用 naiveBayes 函 数 构建 分 类 器 : 


> library(e1071) 
> classifier-naiveBayes(trainset[, !names(trainset) %in% 
c("churn")], trainset$churn) 


2) 输入 classifier 命 令 ， 检 查 函数 调用 、 先 验 概率 和 后 验 概率 : 


> classifier 


Naive Bayes Classifier for Discrete Predictors 


Call: 


naiveBayes.default(x = trainset[, !names(trainset) %in% 
ci"charu")] , 


y = trainset$churn) 


A-priori probabilities: 
trainset$churn 


yes no 


0.1477322 0.8522678 


Conditional probabilities: 
international plan 
trainset$churn no yes 
yes 0.70467836 0.29532164 
no 0.93512418 0.06487582 


3) 生成 测试 数据 集 的 分 类 表 : 


> bayes.table = table(predict(classifier, testset[, 
Inames (testset) %in% c("churn")]), testset$churn) 


> bayes.table 


yes no 
yes 68 45 
no T3 B32 


4) 最 后 ， 利 用 分 类 表 生 成 混淆 矩阵 : 


> confusionMatrix(bayes.table) 


Confusion Matrix and Statistics 


yes no 


yes 68 45 
no 13 832 


Accuracy : 0.8841 

S5% CI : (0.8628, 0.9031) 
No Information Rate : 0.8615 
P-Value [Acc » NIR] : 0.01880 


Kappa : 0.4701 
Mcnemar's Test P-Value : 0.01294 


Sensitivity : 0.4823 
Specificity : 0.9487 

Pos Pred Value : 0.6018 

Neg Pred Value : 0.9193 
Prevalence : 0.1385 

Detection Rate : 0.0668 
Detection Prevalence : 0.1110 


Balanced Accuracy : 0.7155 


'Positive' Class : yes 


3. 原 理 


朴素 贝 叶 斯 算法 假设 特征 变量 都 是 条 件 独立 的 ， 即 预测 变量 (x) 对 分 类 结果 (c) 的 影响 与 其 他 变量 对 c 的 影响 是 相互 独立 的 。 算 法 利用 下 列 公式 计算 得 到 后 验 概率 P (c|x) : 


P(x | c yc) 


P(x) 





P(c 





x)= 


XE, P (cx) 称 为 似 然 ，p (x) 称 为 边缘 似 然 ，p (c) 称 为 先 验 概率 。 如 果 预 测 因 子 比 较 多 ， 计 算 后 验 概率 公式 如 下 : 


P (c|x) =P Gu lc) xP (x5|c) xX:…P (x, |c) XP (c) 


朴素 贝 叶 斯 算法 的 优势 在 于 其 相对 简单 ， 应 用 也 比较 直接 。 它 适合 于 训练 数据 集 规 模 树 较 小 ， 有 可 能 存在 某 些 缺失 及 噪音 数据 的 情况 ， 预 测 值 的 概率 计算 过 程 较 为 简单 。 算 法 不 足 在 于 它 假定 所 有 特征 
变量 之 间 相 互 独立 并 且 同 等 重要 ， 这 个 前 提 在 现实 世界 中 很 难 成 立 。 


本 节 使 用 e1071 包 中 的 朴素 贝 叶 斯 分 类 器 构建 分 类 模型 。 首 先 ， 我 们 假定 在 朴素 贝 叶 斯 函数 调用 中 所 有 变量 (包括 churn 类 标号 ) 都 是 分 类 函数 的 第 一 输入 参数 ，churn 类 标号 为 算法 的 第 二 输入 参数 。 
接 下 来 ， 将 分 类 模型 指派 给 不 同 变量 分 类 器 。 表 输出 分 类 器 的 相关 信息 ， 包 括 冰 数 调用 、 先 验 概率 以 及 条 件 概 率 等 。 我 们 也 可 以 使 用 predict 函 数 获得 预测 结果 ， 并 使 用 table 遂 数 得 到 测试 数据 集 的 分 类 
表 。 最 后 ， 生 成 混淆 和 矩 阵 计算 分 类 模型 的 性 能 。 


最 后 ， 如 下 是 本 章 所 有 提 到 过 的 分 类 算法 的 比较 结果 列表 : 







算法 名 称 不 E 
。 非 常 灵 活 且 易于 理解 
递归 分 割 树 能够 同时 解决 分 类 和 回归 两 大 类 问题 。 容易 产生 偏 置 及 过 度 适 应 问题 


. 无 参 
灵活 易于 理解 
能 够 同时 解决 分 类 和 回归 两 大 类 问题 


条 件 推理 树 无 参 «lr EX MW 
偏 置 问 题 不 如 递归 分 割 严重 
学 习 代价 为 0 ,分 类 结果 不 窑 易 解释 
JS " - 
K 近邻 分 类 需 s hen p v 。 不 能 处 理 连 续 变 量 的 缺失 
理 任 意 类 型 的 数据 ， 只 要 选取 合适 、 
NEE RSEN SERRE . 算法 性 能 依赖 于 数据 的 维度 
离 测 量 方法 
容易 理解 -其 线 问题 
ORI T E 8 PRU 
v 58 [up UH 可 知 模型 的 多 得 续 变 量 的 缺失 值 
相知 置信 区 间 常 值 比较 敏感 
。 模 型 更 新 速度 快 ， 能 处 理 新 到 样 例 
。 息 法 相对 简单 ， 吻 于 实践 E "m 
iL 但 Tj de k á ” [Bri DA T :人 部 是 条 zh 件 独立 M. jf H. 同等 在 现实 
。 适 合 训 练 数据 集 相 对 较 小 的 情况 Pg 
FR pup . 可 以 处 理 _ 些 噪声 和 缺失 数据 中 不 太 可 能 成 立 
Rn . 当 训练 样 例 增加 时 ， 分 类 会 逐渐 产生 偏离 
。 能 方便 地 获得 预测 类 别 的 可 能 概率 
4. 扩 展 
.如果 读者 希望 多 贝 叶 斯 定理 ， 可 以 参考 维基 百科 上 的 文档 : htp://en.wikipedia.org/wiki/Bayes' theotem。 
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人 A 
6.1 人 简介 
很 多 研究 已 经 证 明 支 持 向 量 机 (Support Vector Machine, SVM) 以 及 神经 网 络 (Neural Network, NN) 都 是 功能 强大 的 分 类 工具 ， 可 以 被 广泛 应 用 于 不 同 领域 。 与 前 述 基 于 树 和 基于 概率 的 分 类 


算法 不 同 ， 在 SVM 和 NN 训 练 中 ， 从 输入 数据 到 输出 结果 的 过 程 并 不 清晰 ， 也 难以 解释 ， 因 此 ， 这 两 种 算法 都 属于 黑 盒 方法 。 


神经 网 络 算法 的 发 展 受 人 类 大 脑 思维 活动 影响 ， 其 本 质 是 一 种 模仿 人 类 大 脑 思维 方式 的 运算 模型 。 与 神经 网 络 相 反 ， 支 持 向 量 机 通过 定义 核 函 数 将 输出 数据 映射 到 高 维特 征 空间 上 ， 并 在 此 空间 中 构造 
一 个 最 优 分 类 超 平面 (边界 最 大 ) 。 简 而 言 之 ， 我 们 可 以 将 支持 向 量 机 看 作 高 维 空间 的 线性 算法 。 


以 上 算法 在 解决 分 类 问题 时 都 存在 优 缺 点 ， 例 如 ， 支 持 向 量 机 可 以 做 到 全 局 最 优 ， 而 神经 网 络 容易 陷入 多 重 局 部 最 优 。 因 此 ， 可 根据 数据 源 的 特征 选择 其 中 之 一 。 本 章 将 探讨 以 下 问题 
“ 如 何 训练 支持 向 量 机 

| 选择 支持 向 量 机 的 惩罚 因子 

© 对 SVM 模型 可 视 化 

. 基于 SVM 预测 测试 数据 集 

. 调整 SVM 

而 在 神经 网 络 方面 ， 将 探讨 : 

.如何 训 练 神经 网 络 模型 

.可视化 神经 网 络 模型 

: 使 用 neuralnet 包 训练 得 到 的 模型 标记 测试 数据 集 


: 使 用 nnet 包 训练 神经 网 络 ， 并 将 其 应 用 在 测试 数据 集 的 分 类 标记 中 
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很 多 研究 已 经 证 明 支 持 向 量 机 (Support Vector Machine, SVM) 以 及 神经 网 络 (Neural Network, NN) 都 是 功能 强大 的 分 类 工具 ， 可 以 被 广泛 应 用 于 不 同 领域 。 与 前 述 基 于 树 和 基于 概率 的 分 类 
算法 不 同 ， 在 SVM 和 NN 训 练 中 ， 从 输入 数据 到 输出 结果 的 过 程 并 不 清晰 ， 也 难以 解释 ， 因 此 ， 这 两 种 算法 都 属于 黑 盒 方法 。 


神经 网 络 算法 的 发 展 受 人 类 大 脑 思维 活动 影响 ， 其 本 质 是 一 种 模仿 人 类 大 脑 思维 方式 的 运算 模型 。 与 神经 网 络 相 反 ， 支 持 向 量 机 通过 定义 核 函 数 将 输出 数据 映射 到 高 维特 征 空间 上 ， 并 在 此 空间 中 构造 
一 个 最 优 分 类 超 平面 (边界 最 大 ) 。 简 而 言 之 ， 我 们 可 以 将 支持 向 量 机 看 作 高 维 空间 的 线性 算法 。 


以 上 算法 在 解决 分 类 问题 时 都 存在 优 缺 点 ， 例 如 ， 支 持 向 量 机 可 以 做 到 全 局 最 优 ， 而 神经 网 络 容易 陷入 多 重 局 部 最 优 。 因 此 ， 可 根据 数据 源 的 特征 选择 其 中 之 一 。 本 章 将 探讨 以 下 问题 
“ 如 何 训练 支持 向 量 机 

- 选择 支持 向 量 机 的 惩罚 因子 

< 对 SVM 模型 可 视 化 

- 基于 SVM 预测 测试 数据 集 

. 调整 SVM 

而 在 神经 网 络 方面 ， 将 探讨 : 

: 如 何 训练 神经 网 络 模型 

: 可 视 化 神经 网 络 模型 

: 使 用 neuralnet 包 训练 得 到 的 模型 标记 测试 数据 集 


: 使 用 nnet 包 训练 神经 网 络 ， 并 将 其 应 用 在 测试 数据 集 的 分 类 标记 中 


6.2 ”使 用 支持 同 量 机 完成 数据 分 类 


libsvm 和 SVMLite 都 是 非常 流行 的 支持 向 量 机 工具 。 在 Ri 语言 中 ，e1071 包 提供 了 libsvm 的 实现 ，klap 包 提供 了 对 SVMLite 的 实现 。 读 者 可 以 通过 调用 这 两 个 包 里 已 实现 的 函数 来 完成 支持 向 量 机 的 训 
练 。 本 节 讨 论 的 重点 将 放 在 基于 telecom customer chum 训 练 数据 集 ， 使 用 e1071 包 的 sSvm 函 数 (libsvm 实 现 版 本 ) 训练 得 到 一 个 支持 向 量 机 。 


1. 准 备 
在 本 节 ， 将 继续 使 用 telecom churn 数 据 集 作为 输入 数据 源 来 训练 支持 向 量 机 。 如 果 读 者 还 没有 准备 好 这 个 数据 集 ， 请 参考 第 5 章 的 相关 内 容 。 
2. 操 作 
请 执行 以 下 操作 来 训练 SVM : 
1) 导入 e1071 包 : 
> library(e1071) 
2) 使 用 svm 函 数 训练 支持 向 量 机 ，trainset 数 据 集 作 为 输入 数据 集 ，churn 是 分 类 类 别 。 


> model = svm(churn-., data = trainset, kernel-"radial", cost-1, 
gamma = 1/ncol(trainset)) 


3) 最 后 ， 利 用 summary 获 得 建 好 的 分 类 模型 的 所 有 信息 


> summary (model) 


Call: 
svm(formula - churn - ., data - trainset, kernel - "radial", cost 
= 1, gamma = 1/ncol(trainset)) 


Parameters: 
SVM-Type:  C-classification 
SVM-Kernel: radial 
costs 3 


gamma:  0.05882353 


Number of Support Vectors: 691 


( 394 297 ) 


Number of Classes: 2 


Levels: 


yes no 


3. 原 理 


支持 向 量 机 构建 了 一 个 超 平面 (或 一 组 超 平面 ) ， 使 得 高 维特 征 空 间 内 两 个 类 的 边缘 间隔 最 大 化 。 定 义 这 些 超 平面 的 向 量 就 被 称 为 支持 向 量 ， 如 下 图 所 示 平 面 边界 线 上 的 那些 点 形成 的 向 量 : 








支持 向 量 机 

支持 向 量 机 首先 要 构建 一 个 超 平面 能 够 最 大 化 间隔 距离 ， 然 后 将 定义 扩展 到 非 线 性 可 分 问题 上 上， 最后， 将 数据 映射 到 一 个 高 维 空间 ， 使 得 数据 能 够 更 容易 地 被 线性 边界 分 离开 来 。 

SVM 的 优势 在 于 利用 了 面向 工程 问题 的 核 函 数 ， 能 够 提供 准确 率 非常 高 的 分 类 模型 ， 同 时 借助 正则 项 可 以 避免 模型 的 过 度 适 应 ， 用 户 也 不 用 担心 诸如 局 部 最 优 和 多 重 共 线性 难题 。SVM 算 法 最 主要 的 浆 
端 是 对 模型 进行 训练 和 测试 的 速度 很 慢 ， 模 型 处 理 需要 的 时 间 宛 长 ， 因 而 算法 不 适合 ， 应 用 于 规模 比较 庞大 的 数据 集 。 另 外 ，SVM 的 结果 很 难 解释 ， 如 何 确定 合适 的 核 国 数 也 是 一 个 难点 ， 而 正则 化 也 是 用 
户 需要 考虑 的 问题 。 

本 节 继 续 使 用 telecom churn 数 据 集 作 为 案例 的 数据 源 。 首 先 我 们 使 用 e1017 包 的 libsvm 函 数 训练 支持 向 量 机 。 通 过 训练 函数 svm， 用 户 可 以 确定 核 函 数 、 成 本 国 数 以 及 gamma 国 数 。 对 于 核 函 数 的 选 
择 ， 默 认 选 择 radial ( 径 向 函数 ) ， 用 户 还 可 以 选择 线性 核 函数 、 多 项 式 核 函 数 、 径 向 基 核 函数 和 sigmod 核 函数 。gamma 函 数 的 值 决定 了 分 离 超 平面 的 形状 ， 默 认为 数据 维度 的 倒数 〈1/ 数 据 维度 ) ， 提 
高 gamma 值 通常 会 增加 支持 向 量 的 数量 。 考 虑 到 成 本 函数 ， 默 认 值 通常 设置 为 1， 此 时 正则 项 也 是 常数 ， 正 则 项 越 大 ， 边 界 越 小 。 在 下 一 节 ， 我 们 将 深入 探讨 成 本 函数 对 SVM 分 类 器 的 影响 ， 当 支持 向 量 机 
建 好 以 后 ， 可 以 一 样 使 用 ummary 函 数 来 输出 分 类 的 详细 信息 ， 包 括 调 用 方法 、 参 数 、 类 别 个 数 、 标 记 类 型 等 。 


4 扩展 


: SVMLight 是 另外 一 种 比较 常用 的 支持 向 量 机 工具 ， 与 e1071 包 提供 了 对 libsvm 的 完全 支持 不 同 ，klaR 包 仅 为 SVMLight 提 供 了 一 个 接口 ， 要 使 用 SVMLight， 可 以 执行 以 下 操作 : 


1) 安装 klaR 包 : 
> install.packages ("klaR") 


> library (klaR) 


2) 从 http://svmlightjoachims.org/ 下 载 合 适 版 本 的 SVMLight 源 码 和 库 到 本 地 。 例 如 ， 若 客户 端 Os 是 Windows 64 位 ， 应 该 从 该 路 
f&http://download.joachims.org/svm light/current/svm light windows64.zip 下 载 文件 。 


3) 解压 缩 文件 ， 将 库 文件 放 在 R 语 言 的 工作 路 径 下 ， 用 getwd 可 以 查看 当前 工作 路 径 : 


> getwd() 


4) 调用 svmlight 函 数 训练 支持 向 量 机 : 


> model.light = svmlight(churn-., data = trainset, 
kernel-"radial", cost-1, gamma - 1/ncol(trainset)) 


6.3 JoEESeRSHIHRTERABSASSEUEARHT- 
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小 ,分 类 间隔 会 比较 大 ( 软 间隔 ) ， 将 产生 比较 多 的 被 错 分 样本 ; 相反 当 加 大 您 罚 因子 时 ,会 缩小 分 类 间隔 ( 硬 间隔 ) ， 从 而 减少 错 分 样本 。 本 节 将 展示 惩罚 因子 大 小 变化 对 SVM 分 类 器 的 影响 。 
1. 准 备 

本 节 使 用 iris 数 据 集 作为 示例 数据 源 。 
2. 操 作 

执行 以 下 操作 实现 用 两 个 惩罚 因子 生成 两 个 不 同 的 分 类 样 例 : 


1) 调用 subset 函 数 获得 iris 数 据 集中 species 值 为 setosa 或 virginica 的 样 例 ， 选 择 样 例 在 Sepal.Length、Sepal.Width、Species 列 的 投影 : 


> iris.subset = subset (iris, select-c("Sepal.Length", "Sepal. 
Width", "Species"), Species %in% c("setosa","virginica")) 


2) 调用 plot 函 数 绘制 散 点 图 ， 其 中 Sepal.Length 为 x 轴 ，Sepal.Width 为 y 轴 : 


> plot(xziris.subset$Sepal.Length,y-iris.subset$Sepal.Width, 
col=iris.subset$Species, pch=19) 
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6.5 


iris.subset$Sepal.Length 





itis 数 据 集 子 集 的 散 点 图 (x 轴 和 y 轴 分 别 为 Sepal.Length 和 Sepal.Width) 


3) 将 秆 罚 因 子 设置 为 1， 利 用 iris.subset 数 据 集 训练 SVM : 


> svm.model = svm(Species ~ ., data-iris.subset, kernel-'linear' 
cost-1, scale-FALSE) 


4) 将 支持 向 量 用 蓝 色 的 圈 标 注 出 来 : 


> points(iris.subset[svm.model$index,c(1,2)]1,colsz"blue",cex-2) 





iris.subset$Sepal Width 
25 30 35 40 


iris.subset$ Sepal.Length 





用 蓝 色 圈 标 注 支 持 向 量 


5) DU e: 


> w = t(svm.model$coefs) %*% svm.model$SV 


>b = -svm.model$rho 


> abline(a--b/w[1,2], b--w[1,1]1/w[1,2], col-z"red", lty=5) 
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iris.subset$Sepal.L ength 





在 散 点 之 间 加 上 分 隔 线 


6) 将 惩罚 因子 设置 为 10000， 重 新 训练 一 个 SVM 分 类 器 : 


> plot(x-iris.subset$Sepal.Length,y-iris.subset$Sepal.Width, 
colziris.subset$Species, pch-19) 


» svm.model - svm(Species - ., data-iris.subset, type-'C- 
classification', kernel-'linear', cost-z10000, scale-zFALSE) 


> points(iris.subset[svm.model$index,c(1,2)1,col-"blue",cex-2) 
> w = t(svm.model$coefs) %*% svm.model$SV 
> b = -svm.model$rho 


> abline(a=-b/w[1,2], b=-w[1,1]/w[1,2], col="red", lty=5) 
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SVM 分 类 器 样 例 〈 大 的 惩罚 因子 ) 


3. 原 理 


本 节 探 讨 了 惩罚 因子 大 小 对 SVM 分 类 器 的 影响 。 首 先 ， 我 们 选取 iris 数 据 集 的 子 集 构成 训练 数据 集 ， 新 的 iris 子 集 由 Species 列 上 的 值 为 Setosa 和 virginica 的 数据 在 Sepal.Length 和 Sepal.Width 以 及 
Species 列 上 的 投影 组 成 。 接 下 来 ,我们 首先 选择 了 一 个 小 的 惩罚 因子 (cost=1) 来 训练 SVM ， 该 分 类 器 人 允许 存在 部 分 错 分 样本 ， 分 隔 边界 属于 软 间隔 。 如 步骤 5) 中 所 示 ， 支持 向 量 均 用 蓝 色 圆圈 进行 了 标 
注 ， 不 同类 别 样 例 之 间 也 增加 了 一 条 分 隔 线 ， 由 于 选取 了 一 个 小 的 惩罚 因子 ， 造 成 图 中 有 一 个 绿色 点 (virginica) 被 错误 地 划分 到 其 他 类 别 (setosa) 。 


另外 为 了 证 实 一 个 大 的 惩罚 因子 对 SVM 分 类 器 的 影响 ， 我 们 用 一 个 cost=10000 的 惩罚 因子 来 训练 SVM 分 类 器 。 从 步骤 5) 中 所 示 的 结果 可 知 ， 此 时 间隔 边缘 变 得 狭窄 ( 硬 间 隔 ) ， 也 没有 错 分 的 样本 存 
在 。 通 过 以 上 两 个 案例 ， 可 知 当选 择 不 同 的 惩罚 因子 时 ， 会 影响 分 隔 间 距 的 大 小 和 分 类 误差 。 


4. 扩 展 
. 允许 错 分 样本 存在 的 软 间 隔 理 论 是 由 Corinna Cortes 和 Vladimit N.Vapnik 在 1995 年 提出 ， 相 关 文 献 可 见 : 


Cortes, C.and Vapnik, V. (1995) .Support-vector networks.Machine learning, 20 (3) , 273-297. 


6.4 ”实现 SVM 模型 的 可 视 化 

要 可 视 化 已 构建 好 的 模型 ， 用 户 可 以 首先 使 用 plot 函 数 绘制 散 点 图 来 说 明 输 入 的 数据 以 及 相应 的 SVM 模型 。 在 图 中 ， 支 持 向 量 和 类 别 可 以 被 高 亮 显示 ， 以 和 彩色 的 样 例 区 分 开 来 。 另 外 ， 用 户 还 可 以 采 
用 等 高 线 图 绘制 类 的 边缘 ， 从 等 高 线 图 可 以 更 容易 地 判断 被 错 分 的 样 例 。 
1. 准 备 

本 节 将 使 用 iris 数 据 集 和 telecom churn 两 个 数据 集 。 在 开始 之 前 ， 读 者 需要 根据 前 述 章节 内 容 用 telecom 数 据 集运 用 SVM 函数 训练 并 保存 一 个 调 优 后 的 SVM 模型 。 
2. 操 作 

执行 以 下 步骤 以 实现 SVM 模型 对 象 的 可 视 化 : 

1) 调用 SVM 函 数 基于 iris 数 据 集训 练 得 到 相应 的 支持 向 量 机 ， 调 用 plot 函 数 绘制 相关 模型 : 

> data (iris) 


> model.iris = svm(Species-., iris) 


> plot(model.iris, iris, Petal.Width ~ Petal.Length, slice = 
list(Sepal.Width = 3, Sepal.Length = 4)) 
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2) 调用 plot 函 数 ， 绘 制 SVM 对 象 model，x 轴 和 y 轴 分 别 为 tatal intl charge 和 total day minutes: 


> plot (model, trainset, total day minutes ~ total intl charge) 
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churn 数 据 集 的 SVM 分 类 模型 图 
3. 原 理 


本 节 探 讨 了 如 何 使 用 plot 遂 数 实 现 SVM 模 型 的 可 视 化 ， 第 一 张 图 中 ， 我 们 基于 iris 数 据 集训 练 得 到 支持 向 量 机 ， 并 调用 plot 函 数 绘制 了 该 SVM 模 型 。 


在 参数 列表 中 ，Plot 函 数 的 第 一 个 参数 为 模型 名 称 ， 第 二 个 参数 为 指定 的 样本 数据 集 (该 数据 集 必须 与 构建 模型 的 数据 集 一 致 )， 第 三 个 参数 是 对 分 类 图 坐标 轴 的 说 明 ， 默 认 情 况 下 ，plot 函 数 将 绘制 
一 个 二 维 (x 轴 -y 轴 ) 的 散 点 图 ， 本 例 中 ， 我 们 选择 了 Petal.Length 和 Petal.Width 作 为 散 点 图 的 两 个 坐标 轴 。 


从 步骤 1) 可 知 ，Petal.Length 是 x 轴 ，Petal.Width 为 y 轴 ， 标 记 为 X 或 O 的 数据 点 依次 分 布 在 图 中 。 其 中 ，X 代 表 支 持 向 量 ，O 代 表 样 例 数据 ， 可 以 通过 配置 svSymbol 和 dataSymbol 来 调整 样 例 的 标 
记 。 所 有 的 支持 向 量 及 true class 都 已 经 高 亮 并 根据 类 别 不 同 选用 不 同 颜 色 显 示 (绿色 代表 viginica， 红 色 代 表 versicolor， 黑 色 代 表 setoca) 。 最 后 一 个 参数 slice， 仅 在 变量 个 数 大 于 2 的 时 候 设 置 。 在 本 例 
中 ， 我 们 还 使 用 了 两 个 变量 ，Sepal.Width 和 Sepal.Length ， 并 分 别 用 常数 3 和 4 为 它们 赋值 。 


我 们 接 下 来 用 同样 的 方法 处 理 基 于 churn 数 据 集训 练 得 到 的 SVM 模型 ， 在 样 例 中 ， 选 择 了 total day_minutes 和 tatal_ intl charge 作 为 散 点 图 的 坐标 轴 。 如 步骤 2) 中 显示 的 结果 所 示 ， 红 色 的 支持 向 量 
和 黑色 的 数据 样 例 在 图 中 心 区 域 排列 得 非常 紧密 ， 不 能 直接 分 开 。 


4. 扩 展 


. plot 函 数 的 其 他 参数 ， 诸 如 fll、grid、symbolPalette 等 ， 可 以 用 来 调整 图 形 的 布局 ， 读 者 可 以 使 用 help 函 数 来 查看 文档 得 到 更 多 信息 ; 


> ?svm.plot 
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练 模 型 实现 类 预测 
前 述 章节 介绍 了 基于 训练 集训 练 SVM 的 方法 。 通 过 训练 ， 算 法 能 找到 使 间隔 区 间 最 大 化 的 最 优 超 平面 来 分 割 训练 数据 ， 得 到 的 SVM 模型 能 够 被 用 来 预测 新 到 样 例 的 类 别 。 本 节 将 探讨 基于 SVM 模型 使 
用 predict 遂 数 预 测 值 。 
1. 准 备 
读者 需要 完成 前 述 章节 的 操作 生成 一 个 SVM 模型 并 保存 到 model 中 。 
2. 操 作 


执行 以 下 操作 完成 测试 数据 集 的 类 别 预 测 : 


1) 利用 已 构建 的 SVM 模型 和 测试 数据 集 属性 预测 它 的 类 别 : 


> svm.pred = predict (model, testset[, !names(testset) %in% 
c ("churn")]) 


2) 根据 预测 结果 和 测试 数据 集 的 类 别 ， 调 用 table 函 数 建立 分 类 表 : 


> svm.table-table(svm.pred, testset$churn) 


» svm.table 
svm.pred yes no 


yes 70 12 
no 71 865 


3) 调用 classAgreement 计 算 分 类 一 致 性 系数 : 


> classAgreement(svm.table) 
$diag 
[1] 0.9184676 


$kappa 
[1] 0.5855903 


$rand 


[1] 0.850083 


$crand 


[1] 0.5260472 


4) 调用 confusionMatrix 基 于 分 类 表 评 测 预测 性 能 : 
> library(caret) 


> confusionMatrix(svm.table) 


Confusion Matrix and Statistics 


svm.pred yes no 
yes 70 12 
no 71 865 


Accuracy : 0.9185 
95% CI : (0.8999, 0.9345) 
No Information Rate : 0.8615 
P-Value [Acc » NIR] : 1.251e-08 


Kappa : 0.5856 
1.936e-10 


Mcnemar's Test P-Value 


Sensitivity : 0.49645 
Specificity : 0.98632 

Pos Pred Value : 0.85366 

Neg Pred Value : 0.92415 
Prevalence : 0.13851 

Detection Rate : 0.06876 
Detection Prevalence : 0.08055 


Balanced Accuracy : 0.74139 


'Positive' Class : yes 


3. 原 理 
本 节 首 先 调用 predict 函 数 获得 了 测试 数据 集 的 预测 类 别 ， 然 后 使 用 table 函 数 产生 测试 数据 集 的 分 类 表 ， 接 下 来 的 性 能 评测 过 程 则 与 前 述 章节 其 他 分 类 方法 的 评测 类 似 。 


本 节 引 入 了 一 个 新 国 数 classAgreement 用 来 计算 一 个 二 维 列 联 表 行 列 之 间 的 多 种 一 致 性 系数 ， 包 括 diag 系 数 、kappa 系 数 、rand 系 数 以 及 crand 系 数 等 。 其 中 ，diag 系 数 为 分 类 表 的 主 对 角 线 上 数据 点 
的 百分比 ，kappa 系 数 是 对 diag 系 数 随 机 一 致 性 的 修正 (出 现 随机 一 致 性 的 概率 ) ，rand 代 表 聚 类 评价 指标 (Rand index) ， 主 要 用 来 衡量 两 个 聚 复 之 间 的 相似 性 ; crand 系 数 是 出 现 元 素 随机 分 类 情况 时 
对 Rand index 修 正 的 结果 。 


最 后 我 们 使 用 caret 包 的 confusionMatrix 国 数 来 评测 分 类 模型 的 性 能 ， 训 练 后 的 支持 向 量 机 分 类 正确 率 可 达 0.9185， 基 本 能 够 实现 对 绝 大 部 分 样 例 的 正确 分 类 。 当 然 ， 单 一 的 分 类 正确 率 并 不 是 一 个 衡 
量 分 类 模型 优 劣 的 理想 指标 ， 用 户 还 应 该 考虑 诸如 分 类 模型 的 灵敏 度 以 及 特异 度 等 其 他 指标 。 


- 除了 使 用 SVM 对 数据 进行 分 类 ， 读 者 还 可 以 使 用 SVM 预测 连续 变量 的 值 ， 也 就 是 说 ， 我 们 可 以 使 用 SVM 实现 回归 分 析 。 
在 接 下 来 的 样 例 中 ， 我 们 将 利用 一 个 名 为 eps-regression 的 模型 说 明 如 何 使 用 SVM 执行 回归 分 析 。 
执行 以 下 操作 完成 用 SVM 训练 回归 模型 : 


1) 使 用 Quartet 数 据 集 来 训练 一 个 支持 向 量 机 : 


> library (car) 
> data (Quartet) 


> model.regression = svm(Quartet$yl-Quartet$x,type-"eps- 
regression") 


2) 调用 predict 函 数 得 到 预测 结果 : 


> predict.y = predict(model.regression, Quartet$x) 


» predict.y 


L 2 3 4 5 6 7 
8 
8.196894 7.152946 8.807471 7.713099 8.533578 8.774046 6.186349 
5.763689 

9 10 24 


8.726925 6.621373 5.882946 
3) 调用 plot 函 数 绘图 ， 预 测 值 用 正方 形 ， 训 练 数据 用 圆 形 : 


> plot(Quartet$x, Quartet$yl, pch-19) 
> points(Quartet$x, predict.y, pch-15, col-"red") 
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同时 包含 了 训练 数据 和 测试 数据 的 散 点 图 


6.6 ”调整 支持 向量 机 
除了 选择 不 同 的 特征 集 和 核 函 数 ， 还 可 以 借助 参数 gamma 以 及 征 罚 因子 来 调整 支持 向 量 机 的 性 能 。 如 果 要 验证 不 同 gamma 和 惩罚 因子 的 组 合 对 支持 向 量 机 性 能 的 影响 ， 可 以 写 一 个 for 循 环 来 实现 。 幸 
运 的 是 SVM 还 提供 了 tune.svm 函 数 简化 了 这 个 过 程 。 本 节 将 探讨 利用 tune.svm 调 整 一 个 支持 向 量 机 的 方法 。 
1. 准 备 
读者 需要 完成 前 述 章节 的 操作 ， 准 备 好 训练 数据 集 trainset。 
2 操作 
执行 以 下 操作 来 调整 支持 向 量 机 : 


1) 首先 调用 tune.svm 调 整 支 持 向 量 机 : 


> tuned = tune.svm(churn-., data = trainset, gamma = 10^(-6:-1), 
cost - 10^(1:2)) 


2) 使 用 ummary 函 数 得 到 调整 后 的 模型 相关 信息 : 


> summary (tuned) 


Parameter tuning of 'svm': 


- sampling method: 10-fold cross validation 


- best parameters: 
gamma cost 


0.01 100 


- best performance: 0.08077885 


- Detailed performance results: 


gamma cost error dispersion 
1 1e-06 10 0.14774780 0.02399512 
2 le-05 10 0.14774780 0.02399512 
3 le-04 10 0.14774780 0.02399512 
4  1e-03 10 0.14774780 0.02399512 
5  1e-02 10 0.09245223 0.02046032 
6  1e-01 10 0.09202306 0.01938475 
7 1e-06 100 0.14774780 0.02399512 
8 1e-05 100 0.14774780 0.02399512 
9 1e-04 100 0.14774780 0.02399512 
10 1e-03 100 0.11794484 0.02368343 
11 1e-02 100 0.08077885 0.01858195 
12 le-01 100 0.12356135 0.01661508 


3) f&FBEituninge XS SUBE EEG BESSER: 


> model.tuned = svm(churn-., data = trainset, gamma = tuned$best. 
parameters$gamma, cost - tuned$best.parameters$cost) 

» summary (model.tuned) 

Call: 

svm(formula - churn - ., data - trainset, gamma - 10^-2, cost - 
100) 


Parameters: 


SVM-Type:  C-classification 
SVM-Kernel: radial 
cost: 100 
gamma: 0.01 


Number of Support Vectors: 547 


( 304 243 ) 


Number of Classes: 2 


Levels: 


yes no 


4) 调用 predict 浮 数 基于 刚 配置 好 的 SVM 模 型 进行 类 标号 的 预测 : 


> svm.tuned.pred = predict(model.tuned, testset[, !names(testset) 
%in% c("churn")]) 


5) 基于 测试 数据 集 的 预测 类 别 和 实际 类 别 产 生 分 类 表 : 


> svm.tuned.table-table(svm.tuned.pred, testset$churn) 


» svm.tuned.table 


svm.tuned.pred yes no 
yes 95 24 
no 46 853 


6) 调用 classAgreement 函 数 得 到 相关 系数 完成 算法 性 能 评测 : 


> classAgreement(svm.tuned.table) 
$diag 
EDI Ossala 


$kappa 
[1] 0.691678 


$rand 


[1] 0.871806 


$crand 


[1] 0.6303615 


7) &in, WiFBconfusionMatrixeqZi EU Jo HA SB RE TERE : 


> confusionMatrix(svm.tuned.table) 


Confusion Matrix and Statistics 


svm.tuned.pred yes no 
yes 95 24 
no 46 853 


Accuracy : 0.9312 
95% CI : (0.9139, 0.946) 
No Information Rate : 0.8615 
P-Value [Acc » NIR] : 1.56e-12 


Kappa : 0.6917 
Mcnemar's Test P-Value : 0.01207 


Sensitivity : 0.67376 
Specificity : 0.97263 

Pos Pred Value : 0.79832 

Neg Pred Value : 0.94883 
Prevalence : 0.13851 

Detection Rate : 0.09332 
Detection Prevalence : 0.11690 


Balanced Accuracy : 0.82320 


'Positive' Class : yes 


3. 原 理 
为 了 调整 广 持 向 量 机 可 以 采用 试 错 法 来 寻找 最 佳 的 gamma 和 惩罚 因子 。 换 句 话 而 言 ， 用 户 需 要 通过 大 量 的 参数 组 合 以 训练 出 不 同 的 支持 向 量 机 。 


在 本 节 样 例 中 ， 我 们 将 gamma 参 数 的 可 能 范围 设 定 为 106~10-1， 惩 罚 因子 选择 了 10 和 100， 使 用 svm.tune 函 数 可 以 得 到 12 组 不 同 的 参数 组 合 。 函 数 采 用 10 遍 交叉 检验 的 方法 来 获得 每 次 组 合 的 错误 
偏差 ， 最 后 选择 误差 最 低 的 最 优 参数 组 合 。 从 summary 表 可 知 ，gamma 等 于 0.01 和 惩罚 因子 为 100 时 ， 算 法 模型 的 性 能 最 优 。 


当 得 到 最 佳 参数 值 后 ， 可 以 用 它们 再 训练 一 个 新 的 支持 向 量 机 ， 并 基于 模型 的 分 类 预测 结果 和 样 例 集 的 实际 类 别 生 成 分 类 表 以 及 混淆 矩阵。 从 混淆 矩阵 的 输出 结果 可 以 得 到 新 旧 两 个 模型 正确 率 的 差 


R. 
4 扩展 


| 有 关 svm.tune 函 数 的 更 多 信息 ， 可 以 使 用 help 函 数 查 询 相关 帮助 文档 : 


> ?SsSvm.tune 
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练 神经 网 络 模型 
神经 网 络 由 一 组 互联 的 结 点 组 成 ， 这 些 结 点 分 别 负责 网 络 的 输入 、 连 接 、 处 理 以 及 输出 。 神 经 网 络 被 广泛 应 用 于 诸如 分 类 、 聚 类 和 预测 等 诸多 领域 。 可 以 使 用 R 中 的 neuralnet 训 练 得 到 神经 网 络 模型 ， 
借助 neuralnet 包 我 们 能 够 生成 一 个 多 层 感知 器 实现 回归 分 析 ， 它 还 提供 了 许多 灵活 的 函数 训练 前 向 神经 网 络 ， 本 节 将 介绍 如 何 使 用 neuralnet 包 训练 得 到 神经 网 络 模型 。 
1. 准 备 
本 节 将 使 用 iris 数 据 集 作为 样 例 数 据 集 ， 我 们 首先 需 对 它 进行 划分 得 到 训练 数据 集 和 测试 数据 集 。 
2. 操 作 


执行 以 下 操作 使 用 neuralnet 来 训练 神经 网 络 : 


1) 导入 iris 数 据 集 ， 并 将 数据 集 分 割 成 训练 集 和 测试 集 两 部 分 : 


> data (iris) 


> ind = sample(2, nrow(iris), replace = TRUE, prob=c (0.7, 0.3)) 
> trainset = iris[ind == 1,] 


> testset = iris[ind == 2,] 


2) 安装 和 导入 neuralnet 包 : 


> install.packages ("neuralnet") 


> library (neuralnet) 


3) 根据 数据 集 在 Species 列 取 值 不 同 ， 为 训练 集 新 增 Versicolor、setosa 和 virginica 数 据 列 : 


> trainset$setosa = trainset$Species == "setosa" 
> trainset$virginica = trainset$Species == "virginica" 
> trainset$versicolor = trainset$Species == "versicolor" 


4) 调用 neuralnet 函 数 创建 一 个 包含 3 个 隐藏 层 的 神经 网 络 ， 训 | 练 结 果 有 可 能 随机 发 生变 化 ， 所 以 得 到 的 结果 可 能 不 同 。 然 而 可 以 通过 在 开始 指定 seed 值 使 得 每 次 训 | 练 返回 相同 的 值 : 


> network = neuralnet(versicolor + virginica + setosa- Sepal. 
Length + Sepal.Width + Petal.Length + Petal.Width, trainset, 
hidden-3) 


» network 


Call: neuralnet (formula = versicolor + virginica + setosa ~ Sepal. 
Length + Sepal.Width + Petal.Length + Petal.Width, data = 
trainset, hidden = 3) 


1 repetition was calculated. 


Error Reached Threshold Steps 
1 0.8156100175 0.009994274769 11063 


5) 输出 构建 好 的 神经 网 络 模型 的 结果 矩阵 result.matrix: 


> network$result.matrix 


1 
error 0.815610017474 
reached.threshold 0.009994274769 
steps 11063.000000000000 
Intercept.to.llayhidl 1.686593311644 
Sepal.Length.to.llayhidl 0.947415215237 
Sepal.Width.to.l1layhidl -7.220058260187 
Petal.Length.to.llayhidl 1.790333443486 
Petal.Width.to.l1layhidl 9.943109233330 
Intercept.to.llayhid2 1.4110260638955 
Sepal.Length.to.llayhid2 0.240309549505 
Sepal.Width.to.l1layhidZ2 0.480654059973 
Petal.Length.to.llayhid2 2.221435192437 
Petal.Width.to.l1layhidZ2 0.154879347818 
Intercept.to.llayhid3 24.399329878242 
Sepal.Length.to.llayhid3 3.3139580885132 
Sepal.Width.to.l1layhid3 5.845670010464 
Petal.Length.to.llayhid3 -6.337082722485 
Petal.Width.to.l1layhid3 -17.990352566695 
Intercept.to.versicolor -1.959842102421 
llayhid.1.to.versicolor 1.010292389835 


llayhid.2.to.versicolor 
llayhid.3.to.versicolor 
Intercept.to.virginica 
llayhid.1.to.virginica 
llayhid.2.to.virginica 
llayhid.3.to.virginica 


Intercept.to.setosa 


0.936519720978 
1.023305801833 
=0.908909982893 
-0.009904635231 
1.931747950462 
-1.021438938226 
1.500533827729 


llayhid.1.to.setosa -1.001683936613 
llayhid.2.to.setosa -0.498758815934 
llayhid.3.to.setosa -0.001881935696 


6) 调用 head 函 数 ， 返 回 network 模 型 的 权重 的 第 一 项 : 


> head(network$generalized.weights[[111) 


3. 原 理 


神经 网 络 是 由 人 工 神经 元 (节点) 相互 连接 而 成 的 网 络 模型 ， 网 络 中 的 神经 元 可 以 分 成 三 类 : 输入 神经 元 、 隐 藏 神经 元 和 输出 神经 元 。 神 经 网 络 中 的 神经 元 是 相互 连接 的 。 不 同 神经 元 之 间 连 接 作 用 的 
强 弱 被 称 为 节点 的 连接 权重 ， 如 果 连 接 权 重大 于 零 ， 神 经 元 处 于 兴奋 状态 ， 否 则 ， 神 经 元 处 于 抑制 状态 。 输 入 神经 元 负责 接收 输入 信息 ， 输 入 数值 越 大 ， 激 发 效果 越 强 。 网 络 中 的 激励 值 因 神经 网 络 的 转移 
函数 和 权重 不 同 而 变化 ， 在 隐藏 神经 元 (或 输出 神经 元 ) 处 ， 会 对 所 有 激励 值 求 和 ， 再 将 它 作 为 传递 函数 的 输入 进行 处 理 ， 处 理 过 程 顺 着 隐藏 神经 元 的 连接 顺序 而 进行 ， 到 达 输 出 节点 时 停止 。 最 终 可 以 利 
用 输出 神经 元 的 结果 对 数据 进行 分 类 。 





人 工 神 经 网 络 


神经 网 络 的 优势 包括 : 首先 ， 可 以 检测 因 变 量 和 自 变量 之 间 的 非 线 性 关系 ; 其 次 ， 可 以 利用 算法 的 并 行 化 实现 对 大 数据 集 的 高 效 训练 ， 再 者 神经 网 络 属于 无 参 模型 ， 能 够 避免 参数 估计 过 程 中 产生 的 错 
误 。 算 法 主要 的 不 足 在 于 容易 陷入 局 部 最 优 因此 得 不 到 全 局 最 优 解 ， 同 时 算法 训练 时 间 过 长 ， 有 可 能 导致 过 度 适 应 。 


本 节 我 们 探讨 了 如 何 训练 神经 网 络 。 首 先 ， 将 iris 数 据 集 分 成 训练 和 测试 两 部 分 ， 然 后 安装 neuralnet 包 ， 并 将 其 导入 一 个 R 会 话 中 ; 接着 将 符合 Species 列 上 取 值 的 数据 处 理 成 新 增 的 versicolor，setosa 
和 virginica 三 列 ; 然后 调用 neuralnet 函 数 训练 network 模 型 。 在 此 过 程 中 ， 除 了 指明 类 标号 (versicolor、setosa 和 virginica) 以 及 函数 中 训练 的 属性 ， 还 人 为 规定 了 每 层 隐藏 神经 元 的 个 数 为 3。 


我 们 随后 查看 了 处 理 过 程 以 及 存储 为 network 的 训练 模型 的 基本 信息 。 从 输出 结果 可 知 ， 整 个 训练 执行 了 11，063 步 ， 终 止 条 件 为 误差 国 数 的 绝对 偏 导 数 小 于 0.01 (在 threshold 有 所 说 明 ) ， 误 差 依然 
值 的 计算 采用 AIC (Akaike Information Criterion) 准则 。 如 果 读 者 希望 了 解 这 些 输 出 的 详细 内 容 ， 可 以 调用 result.matrix 输 出 已 构建 好 的 神经 网 络 模型 的 估计 权 值 。 从 输出 结果 可 知 ， 模 型 的 权 值 范围 
在 -18 到 24.40 之 间 ; 第 一 层 隐 含 网 络 的 截 距 分 别 为 1.69、1.41 和 24.40， 该 层 有 两 个 隐藏 神经 元 ， 权 重 预测 值 分 别 为 0.95 (Sepal.Length) 、-7.22 (Sepal.Width) 、1.79 (Petal.Length) 和 
9.94 (Petal.Width) 。 最 后 ， 可 以 确定 包含 泛 化 权 值 在 内 的 训练 后 神经 网 络 模型 的 参数 信息 ， 这 些 权 值 反映 了 不 同 协 变量 相互 作用 的 结果 。 本 节 样 例 训练 模型 由 4 个 协 变 量 

(Sepal.Length, Sepal.Width, Petal.Length, Petal.Width) 组 合 得 到 的 12 个 泛 化 权 值 ， 分 别 对 应 三 个 类 别 (setosa, virginica, versicolor) 。 


4 扩展 


neuralnet 的 详细 信息 ， 可 以 参考 如 下 文档 : 


Günther, F., and Fritsch, S. (2010) .neuralnet: Training of neural networks.The R journal, 2 (1) , 30-38. 


68 ”可视化 由 neuralnet 包 得 到 的 神经 网 络 模型 


在 neuralnet 包 内 ， 除 了 可 以 调用 plot 函 数 对 模型 进行 可 视 化 展现 ， 用 户 还 能 够 调用 gwplot 久 数 展示 泛 化 权 值 。 本 节 将 探讨 这 两 种 久 数 的 使 用 方法 。 
1. 准 备 

读者 需要 完成 前 述 章节 的 操作 ， 准 备 一 个 训练 好 的 神经 网 络 模型 network。 
2. 操 作 

执行 以 下 操作 ， 完 成 对 神经 网 络 和 泛 化 权 值 的 可 视 化 展现 : 


1) 调用 plot 函 数 对 训练 好 的 神经 网 络 可 视 化 : 


> plot (network) 


C) versicolor 


Sepal Width 


Rm 
Lo 


Petal. Width 


Error. 1.545119 Steps: 9399 





38 A plot E 4 22-48] 9] 25 dp 85 dp 2 p] 2678578 
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> par (mfrow=c (2,2)) 
> gwplot(network,selected.covariate-"Petal.Width") 
> gwplot(network,selected.covariate-"Sepal.Width") 
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gwplot (network, selected.covariate="Petal .Length") 
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gwplot(network,selected.covariate-"Petal.Width") 


Response: versicolor Response: versicolor 


ooocoS80oo90900g0000 


eo 
$90080000000000 
( 


0.5 1.0 1.5 2.0 - 3.0 3.5 4 Ü 


Petal. Width sepal.Width 


Response: versicolor Response: versicolor 


e 
$90060000000000 


* + 


1.5 2.0 


Petal.Length Petal. Width 





调用 plot 函 数 绘制 泛 化 权 值 


3. 原 理 


本 节 展 示 了 如 何 绘制 已 训练 好 的 神经 网 络 模型 以 及 每 个 属性 的 泛 化 权 值 。 如 步骤 1) 中 图 所 示 ， 图 形 显示 了 神经 网 络 模型 的 拓扑 结构 图 ， 也 包括 预测 的 权 值 、 截 距 和 训练 过 程 的 基本 信息 。 在 图 的 底部 ， 
读者 可 以 获得 模型 的 整体 误差 和 收敛 需要 的 步 数 。 


步骤 2) 中 图 是 根据 network$generalized.weights 的 泛 化 权 值 图 ， 四 个 子 图 分 别 展示 了 四 个 协 变 量 Petal.Width、Sepal.Width、Petal.Length、Petal.Width 对 versicolor 的 响应 ， 如 果 图 中 所 示 的 所 有 
泛 化 权 值 都 接近 于 0， 则 说 明 协 变量 对 分 类 结果 影响 不 大 。 然 而 若 总 体 方差 大 于 1， 则 意味 着 协 变量 对 分 类 结果 存在 非 线 性 影响 。 


4 扩展 


如 果 和 希望 了 解 gwplot 更 多 的 内 容 ， 读 者 可 以 调用 help 函 数 访问 相 天 文档 : 


> ?gwplot 


69 基于 neuralnet 包 得 到 的 模型 实现 类 标号 预测 


我 们 也 可 以 像 使 用 其 他 分 类 方法 一 样 ， 利 用 已 经 训练 好 的 神经 网 络 模 型 对 新 观测 值 的 类 标号 进行 预测 ， 然 后 再 通过 混淆 和 矩 阵 来 评测 这 些 网 络 的 性 能 。 本 节 将 介绍 如 何 使 用 神经 网 络 中 的 compute 函 数 获 
得 测试 数据 集 的 类 标号 的 概率 矩阵， 结合 混淆 和 矩阵 和 分 类 表 对 模型 预测 性 能 进行 评估 。 


1. 准 备 

读者 需要 完成 前 述 章节 的 操作 获得 训练 数据 集 trainset 和 测试 数据 集 testset， 然 后 将 训练 得 到 的 神经 网 络 模型 存 入 network。 
2. 操 作 

读者 需要 执行 以 下 操作 来 实施 对 已 训练 的 神经 网 络 的 预测 性 能 的 评测 : 


1) 首先 ， 基 于 一 个 已 经 训练 好 的 神经 网 络 和 测试 数据 集 testset 生 成 相关 的 预测 概率 矩 阵 : 
> net.predict = compute(network, testset[-5])$net.result 
2) 然后 ， 通 过 找到 概率 最 大 的 那 一 列 ， 得 到 其 他 可 能 的 类 别 : 


> net.prediction = c("versicolor", "virginica", "setosa") 
[apply(net.predict, 1, which.max)] 


3) 根据 预测 得 到 的 类 标号 和 实际 测试 数据 集 的 类 标号 产生 分 类 表 : 


> predict.table = table(testset$Species, net.prediction) 


» predict.table 
prediction 


setosa versicolor virginica 


setosa 20 0 0 
versicolor 0 19 1 
virginica 0 2 16 


4) 调用 classAgreement 函 数 计 算 分 类 表 : 


> classAgreement (predict.table) 
$diag 
[1] 0.9444444444 


$kappa 
[1] 0.9154488518 


$rand 


[1] 0.9224318658 


$crand 


[1] 0.8248251737 


5) 调用 confusionMatrix 评 测 预 测 性 能 : 


> confusionMatrix (predict.table) 
Confusion Matrix and Statistics 


prediction 
setosa versicolor virginica 
setosa 20 Ü 0 
versicolor 0 19 1 
virginica 0 2 l6 


Overall Statistics 


Accuracy : 0.9482759 
954 CI : (0.8561954, 0.2892035) 
Ho Information Rate : 0.362069 
P-Value [Acc » NIR] : « 0.00000000000000022204 


Kappa : 0.922252 
Mcnemar's Test P-Value : NA 
Statistics by Class: 


Class: setosa Class: versicolor Class: 
virginica 
sensitivity 1.0000000 0.9047619 
0.9411765 
specificity 1.0000000 0.9729730 
0.95121595 
Pos Pred Value 1.0000000 0.9500000 
0.88B8889 
Neg Pred Value 1.0000000 0.9473684 
0.9750000 
Prevalence 0.3448276 0.3620690 
0.2931034 


Detection Rate 0.3448276 0.3275862 
0.2758621 


Detection Prevalence 0.3448276 0.3448276 
0.3103448 
Balanced Accuracy 1.0000000 0.9388674 
0.94615980 


3. 原 理 


本 节 展 示 了 使 用 neuralnet 包 训练 神经 网 络 模型 进行 类 标号 预测 的 过 程 。 首 先 ， 调 用 compute 函 数 ， 根 据 训练 好 的 神经 网 络 和 测试 数据 集 生成 得 到 输出 概率 矩阵 。 为 了 实现 从 概率 矩阵 到 类 标号 的 转 
换 ， 还 需 调 用 which.max 函 数 找到 每 一 个 观测 值 对 应 概率 最 大 的 标号 列 作为 该 观测 值 的 类 标号 。 接 下 来 ， 使 用 分 类 表 根 据 测试 数据 集 本 身 的 实际 类 标号 和 预测 类 标号 产生 分 类 和 矩阵 。 当 我 们 得 到 分 类 表 ， 可 
以 调用 confusionMatrix 函 数 对 神经 网 络 模 型 的 预测 性 能 进行 评估 。 


4. 扩 展 


本 节 调用 了 net.result 函 数 ， 得 到 神经 网 络 的 整体 结果 ， 用 来 预测 测试 集 数据 的 类 标号 。 除 了 使 用 net.result 函 数 获得 模型 的 整体 训练 结果 ， 我 们 还 可 以 通过 compute 函 数 获得 每 一 层 的 输出 。 我 们 可 以 
通过 查看 每 一 层 的 输出 以 更 好 地 理解 compute 函 数 的 工作 原理 : 


> compute (network, testset[-5]) 


6.10 ”利用 nnet 包 训练 神经 网 络 模型 





R 语 言 提供 了 另外 一 个 能 够 处 理 人 工 神经 网 络 的 算法 包 nnet， 该 算法 包 提 供 了 传统 的 前 馈 反 向 传播 神经 网 络 算法 的 功能 实现 。 前 面 介绍 的 neuralnet 包 实现 了 大 部 分 神经 网 络 算法 ， 本 节 将 简单 探讨 利用 
nnet 包 来 训练 神经 网 络 模型 。 
1. 准 备 

本 节 将 不 使 用 上 一 节 的 trainset 和 testset 数 据 集 ， 读 者 需要 重新 装载 inis 数 据 集 。 


2. 操 作 
执行 以 下 操作 完成 利用 nnet 包 训练 神经 网 络 模 型 : 


1) 首先 ,安装 并 导入 nnet 包 : 


> install.packages("nnet") 


> library (nnet) 


2) 将 数据 集 划 分 成 训练 集 和 测试 集 两 部 分 : 


> data(iris) 

> set.seed(2) 

> ind = sample(2, nrow(iris), replace = TRUE, prob=c (0.7, 0.3)) 
> trainset = iris[ind == 1,] 


> testset = iris[ind == 2,] 
3) 使 用 nnet 包 训练 神经 网 络 : 


> iris.nn = nnet(Species ~ ., data = trainset, size = 2, rang = 
0.1, decay = 5e-4, maxit = 200) 


# weights: 19 

initial value 165.086674 
iter 10 value 70.447976 
iter 20 value 69.667465 
iter 30 value 69.505739 
iter 40 value 21.588943 


iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 
iter 


iter 


50 
60 
70 
80 
90 
100 
110 
120 
130 
140 
150 
160 
170 
180 


value 
value 
value 
value 
value 
value 
value 
value 
value 
value 
value 
value 
value 


value 


8.691760 
8.521214 
8.138961 
7.291365 
7.039209 
6.570987 
6.355346 
6.345511 
6.340208 
6.337271 
6.334285 
6.333792 
6.333578 
6.333498 


final value 6.333471 


converged 


4) 调用 summary 输 出 训练 好 的 神经 网 络 信息 : 


> summary(iris.nn) 
a 4-2-3 network with 19 weights 
options were - softmax modelling  decay-0.0005 
b->h1 il-»h1 i2-»h1 i3-»hl i4-»h1 
-0.38 -0.63 -1.96 e. I3 1.53 
b->h2 il-»h2 i2-»h2 i3-»h2 i4-»h2 
8.95 0.52 1.42 -1.98 -3.85 
b-»o1 h1-»0o1 h2->ol 
3.08 -10.78 4.99 
b->o2 h1-»02 h2-»0o2 
-7.41 Bod Z8 
b->o3 hlL->o3 h2->o3 
4.33 4.42 -12.16 


3. 原 理 


本 节 展 示 了 使 用 nnet 包 训练 神经 网 络 模型 的 过 程 。 首 先 我 们 使 用 nnet 包 训练 神经 网 络 。 在 应 用 遂 数 时 可 以 设置 分 类 规则 、 数 据 源 、 隐 藏 单元 个 数 (size 参 数 ) 、 初 始 随机 数 权 值 (rang 参 数 ) 、 权 值 衰 
减 参数 (decay 参 数 ) 、 最 大 迭 代 次 数 (maxit 参 数 ) 。 在 样 例 中 ，maxit 被 设置 为 200， 整 个 训练 过 程 会 一 直 重 复 直 人 至 拟 合 准 则 值 和 衰减 项 收 傅 。 最 后 ， 使 用 summary 函 数 得 到 已 建立 的 神经 网 络 的 信息 ， 
通过 这 些 信息 ， 我 们 可 知 该 模型 为 一 个 拥有 19 个 权 值 的 4-2-3 网 络 结构 ， 另 外 我 们 从 底部 页 面 的 信息 可 知 权 值 在 节点 之 间 权 值 转移 的 变化 情况 。 


4. 扩 展 
对 nnet 包 的 理论 背景 以 及 构造 方法 感 兴趣 的 读者 可 以 查阅 以 下 文档 : 
: Ripley, B.D. (1996) Pattern Recognition and Neural Networks.Cambtiage 


- Venables, W.N.and Ripley, B.D. (2002) .Modern applied statistics with S.Fourth edition.Springer. 


611 基于 nnet 包 得 到 的 模型 实现 类 标号 预测 

前 面 我 们 使 用 nnet 包 训练 得 到 一 个 神经 网 络 ， 本 节 将 探讨 如 何 利用 该 神经 网 络 对 测试 数据 集 的 类 标号 进行 预测 ， 以 及 使 用 caret 包 生成 混淆 和 矩阵 对 模型 性 能 进行 评估 。 
1. 准 备 

读者 需要 按照 前 述 章节 的 说 明 处 理 iris 数 据 集 ， 将 其 划分 成 训练 集 trainset 和 测试 数据 集 testset 两 部 分 ， 并 将 训练 好 的 神经 网 络 存放 在 iris nn 中 


2. 操 作 
执行 以 下 操作 完成 使 用 已 训练 好 神经 网 络 预测 数据 的 类 标号 : 


1) 使 用 模型 iris.nn 完 成 对 测试 数据 集 的 预测 : 
> iris.predict = predict(iris.nn, testset, type-"class") 
2) 基于 测试 数据 集 的 预测 结果 以 及 实际 类 标号 产生 分 类 表 : 
> nn.table = table(testset$Species, iris.predict) 


iris.predict 


setosa versicolor virginica 


setosa EI 0 0 
versicolor 0 14 0 
virginica 0 T 14 


3) 基于 分 类 表 得 到 混淆 和 矩阵 : 


> confusionMatrix (nn. table} 
Confusion Matrix and Statisties 


iris.predict 


setosa versicolor virginica 


setosa 17 ü 0 
versicolor 0 14 D 
virginica Ü 工 14 


Overall Statistics 


Accuracy : 0.9782609 
554 CI : (0.8847282, 0.9994458) 
Ne Information Rate : 0.3695652 
P-Value [Acc » NIR] : « 0.00000000000000022204 


Kappa : 0.96730683 
Mcnemar's Test P-Value : NA 


Statistics by Class: 


Class: setosa Class: versicolor 


Sensitivity 1.0000000 0.9333333 

Specificity 1.0000000 1.0000000 

Pos Pred Value 1.0000000 1.0000000 

Neg Pred Value 1.0000000 0.9687500 

Prevalence 0.3695652 0.3260870 

Detection Rate 0.3695652 0.3043478 

Detection Prevalence 0.3695652 0.3043478 

Balanced Accuracy 1.0000000 0.9666667 
Class: virginica 

Sensitivity 1.0000000 

Specificity 0.9687500 

Pos Pred Value 0.9333333 

Neg Pred Value 1.0000000 

Prevalence 0.3043478 

Detection Rate 0.3043478 

Detection Prevalence 0.3260870 

Balanced Accuracy 0.9843750 


3. 原 理 

读者 可 以 像 使 用 其 他 分 类 算法 一 样 ， 利 用 nnet 包 训练 得 到 神经 网 络 模型 来 预测 数据 的 类 标号 。 我 们 首先 使 用 predict 函 数 对 测试 数据 集 testset 的 类 标号 进行 预测 ， 在 调用 predict 函 数 时 ， 我 们 明确 了 
type 参 数 为 class， 因 此 输出 的 是 预测 的 类 标号 而 非 概率 和 矩 哇 。 接 下 来 调用 table 函 数 根据 预测 结果 和 testset 的 实际 类 标号 生成 分 类 表 ， 最 后 利用 建立 的 分 类 表 使 用 caret 包 中 的 confusion matrix 方 法 对 训练 
好 的 神经 网 络 的 预测 性 能 进行 评 佑 。 
4 扩展 


如 果 没 有 指定 predict 冰 数 的 type 参 数 为 class， 系 统 将 默认 预测 结果 输出 为 概率 和 拭 阵 ， 这 样 的 处 理 方式 与 neuralnet 包 中 compute 函 数 对 net.result 输 出 处 理 类 似 : 


> head(predict(iris.nn, testset)) 


第 7 草 ”模型 评估 


为 了 确保 模型 能 够 对 未 知 或 新 到 达 对 象 进行 正确 预测 ， 需 要 对 模型 性 能 进行 评估 ， 避 免 模型 可 能 存在 的 过 度 适 应 问题 。 我 们 可 以 利用 包括 caret、rminer 和 rocr 这 样 一 些 算法 包 来 评估 模型 性 能 以 防止 过 
度 适 应 问题 。 进 一 步 ， 对 模型 性 能 进行 评估 还 有 助 于 我 们 得 到 更 优 、 健 壮 性 更 好 的 模型 ， 以 便 准确 地 预测 未 知 数据 的 响应 。 


本 章 将 探讨 使 用 简单 的 R 脚 本 和 R 算 法 包 (如 caret 和 rminer) 评测 模型 性 能 。 


第 7 草 ”模型 评估 


7.1 简介 


为 了 确保 模型 能 够 对 未 知 或 新 到 达 对 象 进行 正确 预测 ， 需 要 对 模型 性 能 进行 评估 ， 避 免 模型 可 能 存在 的 过 度 适 应 问题 。 我 们 可 以 利用 包括 caret、rminer 和 rocr 这 样 一 些 算法 包 来 评估 模型 性 能 以 防止 过 
度 适 应 问题 。 进 一 步 ， 对 模型 性 能 进行 评估 还 有 助 于 我 们 得 到 更 优 、 健 壮 性 更 好 的 模型 ， 以 便 准确 地 预测 未 知 数据 的 响应 。 


本 章 将 探讨 使 用 简单 的 R 脚 本 和 R 算 法 包 (如 caret 和 rminer) 评测 模型 性 能 。 


7.2 基于 k 折 交叉 验证 方法 评测 异型 性 能 
k 折 交叉 验证 技术 能 够 解决 过 度 适 应 问题 ， 因 此 被 广泛 应 用 于 分 类 器 性 能 评测 领域 。k 折 交叉 验证 并 不 需要 使 用 整个 数据 集 ， 相 反 ， 它 会 将 数据 集 划 分 成 训练 集 和 测试 集 两 部 分 。 这 样 ， 基 于 训练 集 得 到 
的 模型 就 可 以 通过 测试 集 来 完成 性 能 评测 。 重 复 执行 完 n 次 k 折 交叉 验证 后 ， 就 能 够 根据 n 次 检验 的 平均 正确 率 实现 对 模型 性 能 的 真实 评估 。 本 节 将 说 明 实 施 k 折 交叉 验证 的 过 程 。 
1. 准 备 
这 一 节 将 继续 使 用 telecom churn 数 据 集 作 为 数据 源 来 训练 支持 向 量 机 。 如 果 有 读者 还 没有 准备 好 这 个 数据 集 ， 请 查阅 第 5 章 获 得 详细 的 帮助 。 
2. 操 作 
执行 以 下 操作 ， 完 成 对 telecom churn 数 据 集 的 交叉 验证 。 


1) 调用 cut 函 数 将 索引 分 成 10 折 : 


> ind = cut(1:nrow(churnTrain), breaks=10, labels-F) 


2) 使 用 for 循 环 执行 10 折 交叉 验证 ， 重 复 10 次 : 


> accuracies = c() 
» for (i in 1:10) ( 
F: fit = svm(churn -., churnTrain[ind la i,]1l) 


十 predictions - predict(fit, churnTrain[ind -- i, ! 
names(churnTrain) %in% c("churn")]) 


t correct count - sum(predictions -- churnTrain[ind -- 
Li,pit"churn*]l] 


- accuracies - append(correct count / nrow(churnTrain[ind 
i,]), accuracies) 


* g 


3) 输出 准确 率 : 


> accuracies 


[1] 0.9341317 0.8948949 0.8978979 0.9459459 0.9219219 0.9281437 
0.9219219 0.9249249 0.9189189 0.9251497 


4) 调用 mean 函 数 计算 平均 准确 率 : 


> mean (accuracies) 


[1] 0.9213852 


3. 原 理 


本 节 介 绍 了 使 用 简单 脚本 实现 10 折 交叉 验证 的 过 程 。 我 们 首先 调用 cut 函 数 得 到 一 个 10 折 的 索引 ， 然 后 使 用 for 循 环 执行 一 个 10 遍 的 10 折 交叉 验证 。 在 循环 中 ， 我 们 首先 将 其 中 9 折 作 为 训练 集 并 应 用 
SVM 训练 模型 ， 然 后 再 使 用 训练 得 到 的 模型 去 预测 剩 下 数据 (测试 集 ) 的 类 标号 ， 然 后 根据 正确 预测 类 别 的 总 和 计算 预测 正确 率 ， 这 样 ， 循 环 将 得 到 10 个 准确 率 ， 最 后 再 调用 mean 函 数 得 到 预测 的 平均 正 
确 率 。 


4 扩展 


假如 读者 希望 利用 k 折 交叉 验证 评估 其 他 模型 的 性 能 ， 只 需要 简单 蔡 换 模型 参数 变量 的 名 称 即 可 。 例 如 ， 如 果 希 望 用 10 折 交叉 验证 评估 朴素 贝 叶 斯 分 类 模型 性 能 ， 只 需要 把 原来 为 Svm 的 调用 函数 改 为 


navieBayes: 


+ for (UL in 1:10) 1 


一 fit = naiveBayes(churn -., churnTrain[ind !- i,]) 

- predictions - predict(fit, churnTrain[ind -- i, ! names(churnTrain) 
tins c("churn")]) 

- correct count = sum(predictions == churnTrain[ind == i,c("churn")]) 
- accuracies = append(correct count / nrow(churnTrain[ind == i,1]), 
accuracies) 


*j 


7.3 利用 e1071 包 完成 交叉 验证 


除了 使 用 loop 函 数 实现 k 折 交叉 验证 ， 读 者 也 可 以 利用 e10781 包 提供 的 tuning 函 数 (例如 ，tune.nnet、tune.randomForest、tune.rpart、tune.svm 和 tune.knn) 获取 最 小 误差 值 。 本 节 将 探讨 如 何 


使 用 tune.svm 进 行 10 折 交叉 验证 得 到 优化 的 分 类 模型 。 
1. 准 备 

本 节 将 继续 使 用 telecom churn 数 据 集 作为 输入 数据 源 进行 10 折 交叉 验证 。 
2. 操 作 

执行 以 下 操作 实施 交叉 验证 以 找到 最 小 估计 误差 : 


1) 调用 tune.svm 函 数 处 理 训 练 数据 集 trainset， 优 化 控制 参数 设置 为 10 折 交叉 验证 (如 果 系 统 报错 如 could not find function predict.func， 请 先 清空 工作 区 ， 重 启 R 会 话 并 重 装 e1071 包 ) : 


> tuned = tune.svm(churn-., data = trainset, gamma = 10^-2, cost = 
10^2, tunecontrol-tune.control(cross-10)) 


2) 调用 Summary 函数 得 到 模型 tuned 的 特征 信息 : 
> summary (tuned) 


Error estimation of 'svm' using 10-fold cross validation: 
0.08164651 


3) 获取 tuned 模 型 的 性 能 细节 : 


> tuned$performances 
gamma cost error dispersion 
1 0.01 100 0.08164651 0.02437228 


4) 最 后 ， 使 用 优化 后 的 模型 产生 分 类 表 : 


> svmfit = tuned$best.model 
> table(trainset[,c("churn")], predict (svmfit)) 


yes no 
yes 234 1108 
no 13 1960 


e1071 包 提供 了 各 种 各 样 的 函数 建立 和 评估 模型 ， 因 此 不 用 我 们 自己 再 重复 设计 函数 评估 拟 合 的 模型 。 本 节 使 用 了 tune.svm 函 数 对 svm 模 型 进行 了 优化 ， 函 数 的 数据 集 、gamma 参 数 、cost 参 数 以 及 优 
化 控制 技术 都 是 事先 确定 好 的 。 其 中 ，tune.control 参 数 设置 为 : cross=10， 即 在 模型 优化 过 程 中 使 用 10 折 交叉 验证 。 优 化 过 程 最 终 将 返回 最 小 估计 误差 、 预 测 性 能 细节 以 及 优化 过 程 中 的 最 优 模型 ， 因 此 
我 们 将 能 够 得 知 参数 调 优 后 算法 性 能 的 变化 ， 并 利用 优化 模型 产生 分 类 表 。 


4 扩展 
在 e1071 包 中 ，tune 函 数 采 用 风格 式 搜索 方法 来 完成 参数 优化 ， 如 果 读 者 还 对 其 他 优化 函数 感 兴趣 ， 可 以 调用 help 函 数 查 看 tune 文 档 : 


> ?2e1071::tune 


7.4 利用 caret 包 完成 交叉 检验 


Caret (分 类 和 回归 训练 ) 包 提供 了 很 多 用 于 解决 回归 和 分 类 训练 问题 的 函数 ， 与 e1071 包 一 样 ，caret 包 也 提供 了 执行 k 折 交叉 验证 的 函数 。 本 节 将 探讨 如 何 使 用 caret 包 完成 k 折 交叉 验证 。 
1. 准 备 

本 节 将 继续 利用 telecom churn 数 据 集 作为 输入 数据 源 来 完成 k 折 交叉 验证 。 
2. 操 作 

执行 以 下 操作 ， 使 用 caret 包 完成 k 折 交叉 验证 : 


1) 首先 ， 设 置 训练 控制 参数 ， 进 行 重复 3 次 的 10 折 交叉 验证 : 


> control = trainControl (method="repeatedcv", number-10, 
repeats=3) 


2) 调用 rpart 处 理 telecom churn 数 据 集 产生 分 类 模型 : 


> model = train(churn-., data-trainset, method-"rpart", 
preProcess-"scale", trControl-control) 


3) 查看 模型 的 输出 信息 : 


> model 


CART 
2315 samples 
16 predictor 


2 classes: 'yes', 'no' 


Pre-processing: scaled 


Resampling: Cross-Validated (10 fold, repeated 3 times) 
Summary of sample sizes: 2084, 2083, 2082, 2084, 2083, 2084, ... 


Resampling results across tuning parameters: 


cp Accuracy Kappa Accuracy SD Kappa SD 
0.0556 0.904 0.531 0.0236 0.155 
0.0746 0.867 0.269 0.0153 0.153 
0.0760 0.860 0.212 0.0107 0.141 


Accuracy was used to select the optimal model using the largest 
value. 


The final value used for the model was cp = 0.05555556. 


3. 原 理 


本 节 我 们 展示 了 使 用 caret 包 可 以 很 方便 地 进行 k 折 交叉 验证 。 首 先 ， 我们 对 训练 控制 参数 进行 了 设置 ， 选 择 执行 3 遍 10 折 交叉 验证 ， 重 复 的 k 折 交叉 验证 的 过 程 也 被 称 为 重复 k 折 交叉 验证 ， 常 被 用 于 检 
验 模型 的 稳定 性 。 如 果 模 型 稳定 ， 用 户 将 获得 类 似 的 测试 结果 。 接 下 来 ， 我 们 调用 rpart 方 法 处 理 训练 数据 集 ， 此 时 先 对 数据 集 进 行 中 心 化 和 标准 化 的 预 处 理 ， 再 选择 与 前 面 方法 相同 的 配置 进行 模型 训练 。 


训练 过 程 完成 以 后 ， 模 型 将 输出 3 次 重新 采样 的 结果 ， 其 中 ，cp 值 为 0.05555556 的 模型 准确 率 最 高 (0.904) ， 因 而 被 确认 为 分 类 最 优 模型 。 


4 扩展 


读者 可 以 在 trainControl 函 数 中 设置 重 采 样 的 参数 ， 指 定 boot、boot632、cv、repeatedcv、LOOCV、LGOCV、none、oob、adaptive cv, adaptive boot 和 adaptive LGOCV 等 。 如 果 希 望 进一步 
了 解 如 何 选择 重 采 样 函数 ， 可 以 参考 trainControl 文 档 : 


» ?trainControl 


7.5 利用 caret 包 对 变量 重要 程度 排序 


得 到 监督 学 习 模型 后 ， 我 们 可 以 通过 改变 输入 值 ， 比 较 给 定 模型 输出 效果 的 变化 敏感 程度 来 评估 不 同 特征 对 模型 的 重要 性 。 本 节 将 展示 如 何 使 用 caret 包 给 变量 重要 性 排序 。 
1. 准 备 

读者 需要 完成 前 述 章节 的 相关 操作 ， 将 匹配 的 rpart 对 象 存 放 在 变量 model 中 。 
2. 操 作 

执行 以 下 操作 ， 使 用 caret 包 完成 对 变量 重要 性 的 排序 : 

1) 调用 Varimp 消 数 评 估 变 量 重 要 性 : 


> importance = varImp (model, scale-FALSE) 
> importance 


rpart variable importance 


Overall 


number customer service calls 116.015 


total day minutes 106.988 
total day charge 100.648 
international planyes 86.789 
voice mail planyes 25.974 
total eve charge 23.097 
total eve minutes 23.097 
number vmail messages 19.885 
total intl minutes 6.347 
total eve calls 0.000 
total day calls 0.000 
total night charge 0.000 
total intl calls 0.000 
total intl charge 0.000 
total night minutes 0.000 
total night calls 0.000 


2) WjFBploteSz A ABUSE E EBEETEES: 


> plot (importance) 


3. 原 理 


在 本 节 ， 我 们 首先 使 用 了 varlmp 函 数 来 取得 变量 重要 性 和 特征 信息 ， 从 整体 输出 可 以 获得 每 个 属性 的 敏感 度 测试 。 接 下 来 对 变量 重要 度 进行 排序 分 级 ， 从 图 示 结 果 可 知 


number customer service calls 属 性 从 敏感 度 而 言 ， 是 重要 性 最 高 的 变量 。 


number customer service calls 
total day minutes 
total day charge 
international planyes 
voice mail planyes 

total eve minutes 
total eve charge 
number vmail messages 
total intl minutes 
total day calls 

total intl charge 

total night charge 
total night calls 

total night minutes 

total intl calls 


total eve calls 


60 


Importance 





使 用 catet 包 绘制 变量 重要 性 


4 扩展 


在 如 rpart 等 一 些 分 类 算法 包 中 从 训练 模型 中 产生 的 对 象 包含 了 变量 重要 性 ， 我 们 可 以 借助 输出 查看 变量 的 重要 性 。 


= library(rpart) 


» model.rp - rpart(churn-., data-trainset) 


» model.rp$variable.importance 


total day minutes 
111.645286 

number customer service calls 
58.486651 
total intl charge 
47.698379 
total eve minutes 
47.166646 
total intl calls 
36.730344 

voice mail plan 
19.884863 
total eve calls 
3.553423 

total night minutes 


1.754547 


7.6 利用 rminer 包 对 变量 重要 程度 排序 


total day charge 
110.881583 
total intl minutes 
48.283228 
total eve charge 
47.166646 
international plan 
42.194508 
number vmail messages 
19.884863 

total night calls 
7.195828 

total night charge 
1.754547 
total day calls 
1.494986 


除了 使 用 caret 包 来 判别 变量 的 重要 性 ， 我 们 还 可 以 使 用 rminer 包 来 完成 同样 的 任务 。 本 节 将 探讨 如 何 使 用 rminer 包 来 分 析 一 个 训练 好 的 模型 中 变量 的 重要 性 。 


1. 准 备 


本 节 将 继续 使 用 telecom churn 数 据 集 作 为 输入 数据 源 来 进行 变量 重要 性 排序 。 


2. 操 作 
执行 以 下 操作 使 用 rminer 包 对 变量 重要 性 排序 : 


1) 安装 和 导入 rminer 包 : 


> install.packages("rminer") 


> library (rminer) 
2) 利用 训练 数据 集 建 立 SVM 模 型 : 
> model-fit(churn-.,trainset,model-"svm") 
3) 使 用 mportance 函 数 获取 变量 重要 性 : 
> VariableImportance-Importance (model,trainset,method-"sensv") 
4) 绘制 根据 变量 排序 后 的 变量 重要 性 图 : 


> L-list(runs-1,sen-t(Variablelmportance$imp),sresponses-VariableI 
mportance$sresponses) 


> mgraph(í(L,graph-"IMP",leg-names(trainset),col-"gray",Grid-10) 


— minutes 
—charge 


f chan 
it minutes 
night char 
d US; 

ice mat plan E 
number vrrrail: messages 


0.2 





使 用 tminet 可 视 化 变量 重要 性 
3. 原 理 


与 caret 包 一 样 ，rminer 包 也 能 得 到 分 类 模型 中 变量 的 重要 性 信息 。 本 节 首 先 使 用 fit 函 数 在 训练 数据 集 trainset 上 训练 得 到 了 一 个 SVM 模型 ， 然 后 再 调用 Importance 国 数 基于 敏感 度 检测 对 变量 重要 性 
进行 分 级 ， 最 后 再 使 用 mgraph 辆 数 绘制 变量 重要 性 分 级 图 。 与 caret 算 法 包 得 到 的 结果 差不多 ， 基 于 敏感 度 检测 得 到 的 最 重要 的 变量 依然 是 number_ customer service calls, 


4 扩展 
rminer 提 供 了 多 个 分 类 模型 供用 户 进 行 选择 ， 如 果 读 者 对 除 svm 方 法 以 外 的 其 他 分 类 模型 感 兴趣 ， 可 以 通过 以 下 操作 来 参考 这 些 选 项 : 


> ?rminer::fit 


7.7 ”利用 caret 包 找到 高 度 天 联 的 特征 


在 执行 回归 或 分 类 操作 之 前 ， 如 果 能 够 提前 去 掉 某 些 高 度 关联 的 属性 ， 训 | 练 模型 的 性 能 会 更 好 。caret 算 法 包 中 的 findCorrelation 函 数 可 以 用 来 找到 相互 高 度 关联 的 属性 ， 本 节 将 展示 如 何 借助 caret 包 
来 找到 那些 高 度 关联 的 属性 。 
1. 准 备 


本 节 将 继续 利用 telecom churn 数 据 集 作为 找到 高 度 关 系 特征 的 输入 数据 源 。 


2. 操 作 
执行 以 下 操作 以 找到 高 度 关 联 的 属性 : 


1) 去 掉 非 数值 类 型 的 属性 : 


> new train = trainset[,! names(churnTrain) %in% c("churn", 
"international plan", "voice mail plan")] 


2) 计算 每 个 属性 之 间 的 关联 度 : 


»cor mat = cor (Dew train) 


3) 调用 findCorrelation 函 数 找到 关联 度 超过 0.75 的 属性 : 


> highlyCorrelated = findCorrelation(cor mat, cutoffz0.75) 


4) 输出 这 些 高 度 关联 属性 的 名 称 : 


> names(new train) [highlyCorrelated] 


[1] "total intl minutes" "total day charge" "total eve - 
minutes" "total night minutes" 


3. 原 理 


本 节 使 用 caret 包 来 寻找 高 度 关 联 的 属性 。 为 了 得 到 每 个 属性 的 相关 值 ， 需 要 先 去 掉 非 数值 类 型 的 属性 ， 然 后 通过 相关 性 计算 得 到 一 个 关联 度 和 矩阵， 然后 将 关联 度 阀 值 设 定 为 0.75， 通 过 findCorrleation 
函数 挑选 出 那些 高 度 关 联 度 属 性 ， 最 后 输出 那些 高 度 关 联 (相关 系数 大 于 0.75) 的 属性 名 称 ， 包 括 total_intl_minutes、total day charge, total eve_minutes 和 total_night_minutes。 读 者 可 以 考虑 去 掉 
一 些 高 度 关 联 的 属性 ， 保 留 一 两 项 属性 以 获得 更 高 的 准确 率 。 


4. 扩 展 


除了 caret 包 ， 我 们 还 可 以 使 用 subselect 算 法 包 中 的 leaps、genetic 和 anneal 函 数 达 到 同样 的 效果 。 


7.8 利用 caret 包 选择 特征 
特征 选择 方法 可 以 挑选 出 那些 预测 误差 最 低 的 属性 子 集 ， 有 助 于 我 们 判断 究竟 应 该 使 用 哪些 特征 才能 建立 一 个 精确 的 模型 。 在 caret 包 中 有 一 个 递归 特征 排除 函数 rfe， 能 够 帮助 我 们 自动 挑选 出 符合 
求 的 特征 ， 本 节 将 说 明 如 何 使 用 caret 包 进行 特征 筛选 。 
1. 准 备 
本 节 将 继续 利用 telecom churn 数 据 集 作为 特征 选择 的 输入 数据 源 。 
2. 操 作 
执行 以 下 操作 ， 完 成 特征 选择 : 
1) 将 训练 数据 集 trainset 中 名 为 international_plan 的 特征 转换 为 intl| yes 和 intl_no: 


> intl plan = model.matrix(- trainset.international plan - 1, 
data-zdata.frame(trainset$international plan)) 


> colnames(intl plan) = c("trainset.international planno"-"intl 
no", "trainset.international planyes"- "intl yes") 


2) 将 训练 数据 集 trainset 中 名 为 voice_mail_plan 的 特征 转换 为 voice yes 和 voice_no: 


> voice plan = model.matrix(- trainset.voice mail plan - 1, 
data-zdata.frame(trainset$voice mail plan)) 


> colnames (voice plan) = c("trainset.voice mail planno" -"voice 
no", "trainset.voice mail planyes"-"voidce yes") 


3) Ximinternational plan 和 voice_mail_plan 这 两 个 属性 ， 将 训练 数据 集 trainset 和 intl-plan、voice-plan 两 个 数据 框 合 并 : 


> trainset$international plan = NULL 
» trainset$voice mail plan - NULL 


» trainset - cbind(intl plan,voice plan, trainset) 


4) 将 测试 数据 集 testing 中 名 为 international_plan 的 特征 ， 生 成 intl_ yes 和 intl_no: 


> intl plan = model.matrix(- testset.international plan - 1, 
data-zdata.frame(testset$international plan)) 

> colnames(intl plan) = c("testset.international planno"-"intl 
no", "testset.international planyes"- "intl yes") 


5) 将 测试 数据 集 testing 中 名 为 voice_mail_plan 的 特征 ， 生 成 voice_ yes 和 voice_no: 


> voice plan = model.matrix(- testset.voice mail plan - 1, 
data-zdata.frame(testset$voice mail plan)) 


> colnames(voice plan) = c("testset.voice mail planno" -"voice 
no", "testset.voice mail planyes"-"voidce yes") 


6) 去 掉 international _ plan 和 voice_mail_plan 这 两 列 ， 将 测试 数据 集 testset 和 intl-plan、voice-plan 两 个 数据 框 合 并 : 


> testset$international plan = NULL 
» testset$voice mail plan - NULL 


» testset - cbind(intl plan,voice plan, testset) 
7) 使 用 线性 判别 分 析 方 法 来 创建 一 个 特征 筛选 算法 : 
> ldaControl = rfeControl(functions = ldaFuncs, method = "cv") 
8) 利用 从 编号 1 到 18 的 数据 子 集 对 训练 数据 集 trainset 进 行 反 向 特征 筛选 : 


> ldaProfile = rfe(trainset[, !names(trainset) %in% c("churn")], 
trainset[,c("churn")],sizes = c(1:18), rfeControl = ldaControl) 


» ldaProfile 
Recursive feature selection 
Outer resampling method: Cross-Validated (10 fold) 
Resampling performance over subset size: 
Variables Accuracy Kappa AccuracySD KappaSD Selected 
1l 0.8523 0.0000 0.001325 0.00000 
0.8523 0.0000 0.001325 0.00000 


2 
z 0.8423 0.1877 0.015468 0.09787 
4 0:8262 0:2285 0.016593 0.09610 


': 0 N A Ul 


10 
Ii 
12 
23 
14 
15 
16 
r7 
18 


0.8466 
0.8466 
0.8458 
0.8458 
0.8475 
0.8514 
0.8518 
0.8544 
0.8544 
0.8531 
0.8527 
0.8531 
0.8531 
0.8531 


The top 5 variables 


total day charge, total day minutes, 


0.2384 0.020710 
0.2364 0.019612 
0.2315 0.017551 
0.2284 0.016608 
0.2430 0.016882 
0.2577 0.014281 
0.2587 0.014124 
0.2702 0.015078 
0.2721 0.015352 
0.2663 0.018428 
0.2652 0.017958 
0.2684 0.017897 
0.2684 0.017897 
0.2684 0.017897 
(out of 12): 


service calls, total eve charge 


9) 接 下 来 ， 绘 制 选择 结果 示意 图 : 


> plot(ldaProfile, 
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10) 检测 最 佳 的 变量 子 集 : 


type = c("o", 


» ldaProfile$optVariables 


EL] 


"total day charge" 


"HE" ) 


0.09970 
0.09387 
0.08670 
0.09536 
0.10147 
0.08076 
0.08075 
0.09208 
0.09421 
0.11022 
0.10850 
0.10884 
0.10884 
0.10884 


10 
Variables 





特征 选择 结果 


intl no, number customer 


[2] 


"total day minutes" 


[3] "intl no" 
[4] "number customer service calls" 
[5] "total eve charge" 
[6] "total eve minutes" 
[7] "voidce yes" 
[8] "total intl calls" 
[9] "number vmail messages" 
[10] "total intl charge" 
[11] "total intl minutes" 
[12] "total night minutes" 
11) 检测 合适 的 模型 
> ldaProfile$fit 
Call: 
lda(x, y) 
Prior probabilities of groups: 
yes no 
0.1477322 0.8522678 
Group means: 
total day charge total day minutes intl no 
yes 35.00143 205.8877 0.7046784 
no 29.62402 174.2555 0.9351242 
number customer service calls total eve charge 
yes 2.204678 18.16702 
no 1.441460 16.96789 
total eve minutes voidce yes total intl calls 
yes 213.7269 0.1666667 4.134503 
no 199.6197  0.2954891 4.514445 
number vmail messages total intl charge 
yes 5.099415 2.899386 
no 8.674607 2.741343 
total intl minutes total night minutes 
yes 10.73684 205.4640 
no 10.15119 201.4184 
Coefficients of linear discriminants: 
LD1 
total day charge 0.715025524 
total day minutes -0.130486470 
intl no 2.259889324 
number customer service calls -0.421997335 
total eve charge -2.390372793 
total eve minutes 0.198406977 
voidce yes 0.660927935 
total intl calls 0.066240268 
number vmail messages -0.003529233 
total intl charge 2.315069869 
total intl minutes -0.693504606 
total night minutes -0.002127471 


一 一 
n2 
— 
xil 


后 ， 通 过 重新 采样 来 评估 性 能 : 


> postResample(predict(ldaProfile, testset[, !names(testset) %in% 
c("churn")]), testset[,c("churn")]) 


Accuracy Kappa 


0.8605108 0.2672027 


3. 原 理 


本 节 使 用 caret 包 来 完成 特征 的 筛选 ， 由 于 数据 集 包 含 了 因子 编码 属性 ， 所 以 首先 调用 函数 model.matrix 将 这 些 因子 编码 属性 转换 成 多 个 二 元 属性 ， 如 将 international_plan 属 性 转换 成 intl_yes 和 
int|_no， 以 及 将 voice_mail_plan 属 性 转换 为 voice _yes 和 voice_no。 


然后 ， 我 们 将 训练 方法 设置 为 交叉 验证 方法 .cv， 同 时 调用 了 函数 ladFuncs 来 完成 线性 判别 分 析 ， 调 用 递归 特征 选择 函数 rfe 以 及 控制 函数 ldaFuncs 来 执行 特征 选择 。 还 可 以 通过 函数 rfe 在 重 采样 的 数据 
子 集 和 筛选 后 的 特征 集 基 础 上 再 次 评估 模型 的 性 能 ， 并 输出 特征 选择 的 结果 。 


我 们 能 够 根据 所 得 到 的 模型 基本 信息 来 绘制 变量 个 数 与 预测 准确 率 之 间 的 关联 示意 图 ， 从 图 3 可 知 ， 当 变量 个 数 等 于 12 时 ， 得 到 的 模型 预测 准确 率 最 高 。 另 外 ， 我 们 也 可 以 获得 模型 中 最 适合 的 变量 子 
fk (变量 总 数 =12) 。 最 后 ， 我 们 计算 得 到 了 重 采样 后 数据 集 的 预测 准确 度 为 0.86，kappa 检 验 的 结果 为 0.27。 


4 扩展 


读者 可 以 指明 rfeControl 的 控制 函数 来 指定 用 于 控制 特征 选择 的 算法 ， 以 下 是 一 些 可 以 参考 的 选项 : 


caretFuncs SVM (caret) 
lmFuncs lm (base) 
rfFuncs RF (randomForest) 
treebagFuncs DT (ipred) 
ldaFuncs lda (base) 
nbFuncs NB (klaR) 
gamFuncs gam (gam) 


7.9 评测 回归 模型 的 性 能 
通过 计算 预测 值 和 实际 值 之 间 的 差 值 大 小 可 以 评估 回归 模型 预测 性 能 的 优 务 ， 常 用 的 误差 评测 标准 包括 均 方 根 误 差 (root mean square error, RMSE) 、 相 对 平方 差 (Relative Square Error, RSE) 
以 及 可 决 系数 (R-Square) 。 本 节 将 介绍 如 何 计算 一 个 回归 模型 的 这 些 误差 值 。 
1. 准 备 
本 节 将 使 用 Quartet 数 据 集 ， 该 数据 集 包 括 了 四 个 回归 数据 集 ， 均 可 以 作为 输入 数据 源 。 
2. 操 作 
执行 以 下 操作 ， 完 成 对 回归 模型 误差 的 评测 : 
1) 从 car 算 法 包 中 导入 Quartet 数 据 集 : 


> library(car) 


> data(Quartet) 
2) 使 用 Im 函数 绘制 属性 y3 随 x 的 的 变化 : 


> plot (Quartets$x, Quartets$y3) 
> lmfit = lm(Quartet$y3-Quartet$x) 


> abline (lmfit, col="red") 
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线性 回归 结果 示意 


3) 调用 predict 函 数 得 到 预测 结果 : 


> predicted- predict(lmfit, newdata-Quartet[c("x")]) 
4) 计算 两 者 之 间 的 均 方 根 误 差 : 


> actual = Quartet$y3 


> rmse = (mean((predicted - actual)^2))^0.5 


> rmse 


[1] 1.118286 


5) 计算 相对 平方 误差 : 


> mu = mean(actual) 


> rse = mean((predicted - actual)^2) / mean((mu - actual) ^2) 


> rse 
[1] 0.333676 
6) 计算 模型 的 R-Square 值 : 


> rsquare = 1 - rse 
> rsquare 


[1] 0.666324 


7) 采用 MASS 算 法 包 的 rm 函数 重新 计算 属性 y3 的 值 ， 并 调用 plot 函 数 绘制 结果 : 


> library (MASS) 
> plot(Quartet$x, Quartets$y3) 


> rlmfit = rlm(Quartet$y3-Quartet$x) 
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abline(rlmfit, col="red") 
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用 模糊 线性 回归 处 理 Quartet 数 据 集 的 结果 


8) 调用 predict 函 数 求 预测 结果 : 


> predicted = predict(rlmfit, newdata-Quartet[c("x")]) 


9) 计算 预测 值 和 实际 值 之 间 的 均 方 根 误差 : 


> actual = Quartet$y3 
> rmse = (mean((predicted - actual)^2))^0.5 
> rmse 


LH] 1.279045 


10) 计算 两 者 之 间 的 相对 平方 误差 : 


> mu = mean (actual) 


> rse =mean ( (predicted - actual)^2) / mean((mu - actual)^2) 
> rse 


[1] 0.4365067 


11) 计算 模型 的 R-Square 值 : 


> rsquare = 1 - rse 
> rsquare 


[1] 0.5634933 


3 原理 
回归 模型 的 评测 可 通过 计算 预测 值 和 实际 值 间 的 差 值 完成 ， 我 们 经 常 使 用 均 方 根 误差 、 相 对 平方 误差 以 及 R< 值 作为 三 种 常用 的 回归 模型 误差 评估 标准 。 本 节 首 先 将 car 算 法 包 中 的 Quartet 数 据 集 导入 会 
话 中 ， 然 后 使 用 Im 函数 来 拟 合 线性 模型 ， 并 且 在 x-y 变 量 的 散 点 图 中 添加 回归 线 。 紧 接着 ， 我 们 调用 predict 函 数 来 进行 回归 预测 ， 并 计算 得 到 已 建 好 的 模型 的 RMSE、RSE 和 R< 值 。 


由 于 数据 集 在 x= 13 时 出 现 了 一 个 异常 值 ， 我 们 希望 能 够 量化 该 异常 点 对 整个 模型 预测 结果 的 影响 。 为 此 ， 我 们 首先 使 用 MAss 算 法 包 的 [Im 函数 训练 得 到 一 个 回归 模型 ， 与 早 前 描述 的 处 理 步骤 类 似 ， 
我 们 又 得 到 了 模型 的 RMSE、RSE 和 R< 值 。 从 输出 结果 可 以 很 明显 看 到 ，|m 方 法 建立 的 模型 其 RMSE 和 RSE 值 要 低 于 "lm 方法 建立 的 模型 ， 而 R< 的 比较 也 显示 出 Im 建立 的 模型 拥有 更 高 的 预测 能 力 。 当 然 ， 在 
实际 操作 中 ， 我 们 会 首先 去 掉 x=13 这 个 异常 值 。 以 上 算法 的 比较 说 明 数 据 的 异常 值 有 可 能 带 来 性 能 评估 方面 的 偏差 ， 并 有 可 能 误导 我 们 选择 了 错误 的 模型 。 


4. 扩 展 


如 果 读 者 希望 在 线性 回归 模型 上 执行 交 义 验证 ， 可 以 利用 e1071 算 法 包 中 的 tune 遂 数 来 进行 : 


> tune(lm, y3-x, data = Quartet) 


Error estimation of 'lm' using 10-fold cross validation: 2.33754 


除了 e1071 算 法 包 ， 我 们 还 可 以 使 用 caret 包 中 的 train 遂 数 来 进行 交叉 验证 。 此 外 ， 如 果 使 用 DAAG 算 法 包 的 cv.Im 也 可 以 达到 同样 的 目的 。 


7.10 ”利用 混 消 算 阵 评测 模型 的 了 预测 能 力 

如 果 要 对 分 类 模型 的 性 能 进行 评估 ， 我 们 可 以 首先 基于 预测 结果 和 实际 分 类 结果 产生 一 个 分 类 表 ， 然 后 基于 混淆 和 矩阵 来 获取 诸如 模型 的 精确 度 、 召 回 率 、 特 异性 以 及 准确 率 等 性 能 指标 。 本 节 将 探讨 如 
何 使 用 caret 包 来 生成 混淆 和 矩阵 。 
1. 准 备 

本 节 将 继续 使 用 telecom churn 数 据 集 作 为 样 例 数据 集 。 
2. 操 作 

执行 以 下 操作 以 得 到 一 个 分 类 性 能 评价 : 

1) 基于 训练 数据 集训 练 得 到 一 个 SVM 模型 : 

> svm.model-s train(churn ~ ., 


+ data = trainset, 
T. method = "svmRadial") 


2) 使 用 训练 好 的 svm.model 进 行 预测 : 


> svm.pred = predict(svm.model, testset[,! names(testset) %in% 
GIC" 


3) 生成 分 类 表 : 
> table(svm.pred, testset[,c("churn")]) 


svm.pred yes no 
yes 73 16 
no 68 861 


4) iilius RAIA RASET 5 A Boer ARI : 


» confusionMatrix(svm.pred, testset[,c("churn")]) 


Confusion Matrix and Statistics 


Reference 
Prediction yes no 
yes 73 16 

no 68 861 


Accuracy : 0.91175 
95% CI : (0.8989, 0.9337) 
No Information Rate : 0.8615 
P-Value [Acc > NIR] : 2.273e-08 
Kappa : 0.5909 
Mcnemar's Test P-Value : 2.628e-08 
Sensitivity : 0.51773 


Specificity : 0.98176 

Pos Pred Value : 0.82022 

Neg Pred Value : 0.92680 
Prevalence : 0.13851 

Detection Rate : 0.07171 
Detection Prevalence : 0.08743 


Balanced Accuracy 0.74974 


'"Positive' Class 


yes 


3. 原 理 


本 节 展 示 了 如 何 使 用 混 消 矩阵 来 评估 分 类 模型 的 性 能 。 首 先 使 用 caret 包 的 train 函 数 训练 得 到 一 个 SVM 模型 ， 然 后 再 使 用 predict 国 数 来 预测 测试 数据 集 的 类 标号 ， 并 通过 调用 table 函 数 基于 预测 结果 和 
实际 类 标号 产生 模型 的 分 类 表 ， 最 后 再 使 用 同样 是 caret 包 提供 的 confusionMatrix 函 数 生成 混淆 和 矩阵 完成 分 类 模型 的 性 能 评估 。 


4 扩展 


如 果 读 者 对 train 函 数 的 其 他 功能 感 兴 趣 ， 可 以 参考 以 下 网 址 : 


http://topepo.github.io/caret/modelList.html 


7.11 利用 ROCR 评 测 模型 的 预测 能 力 


受 试 者 工作 特征 曲线 (Receiver Operating Characteristic, ROC) 是 一 种 常见 的 二 元 分 类 系统 性 能 展示 图 形 ， 在 曲线 上 分 别 标注 了 不 同 切 点 的 真正 率 以 及 假 正 率 。 我 们 通常 会 基于 ROC 曲 线 计 算 处 于 
曲线 下 方 的 面积 AUC (Area Under Curve) ， 并 以 此 面积 来 衡量 相应 分 类 模型 的 性 能 。 本 节 将 展示 如 何 使 用 ROC 曲 线 和 计算 得 到 的 AUC 来 评估 一 个 分 类 模型 的 性 能 。 
1. 准 备 

本 节 将 继续 使 用 telecom churn 数 据 集 作为 样 例 数 据 集 。 
2. 操 作 

执行 以 下 操作 ， 产 生 两 个 不 同 代价 的 分 类 实例 : 

1) 安装 和 导入 ROCR 算 法 包 : 


> install.packages("ROCR") 
> library (ROCR) 


2) 使 用 probability 参 数 为 TRUE 的 训练 数据 集训 练 得 到 一 个 SVM 模 型 : 
> svmfit=svm(churn~ ., data=trainset, prob=TRUE) 


3) 基于 训练 好 的 模型 对 测试 数据 集 进行 预测 ， 同 样 将 probability 参 数 设 为 TRUE: 


>pred=predict (svmfit,testset[, !names(testset) %in% c("churn")], 
probability=TRUE) 


4) 得 到 标号 为 “yes” 的 概率 : 


> pred.prob = attr(pred, "probabilities") 
» pred.to.roc - pred.prob[, 2] 


5) 使 用 prediction 函 数 产 生 预 测 结果 : 
> pred.rocr = prediction(pred.to.roc, testset$churn) 
6) 使 用 performance 函 数 来 完成 性 能 评估 : 


> perf.rocr = performance(pred.rocr, measure = "auc", x.measure = 
"cutorzr") 


> perf.tpr.rocr = performance(pred.rocr, "tpr","fpr") 


7) 调用 plot 消 数 绘制 ROC 曲 线 : 


> plot(perf.tpr.rocr, colorize-T,main-paste("AUC:",(perf.rocrQGy. 
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3. 原 理 


AUC: 0.925495523908875 
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vm 分 类 器 的 ROC 曲 线 示意 图 





在 本 节 ， 我 们 对 如 何 生 成 ROC 曲 线 来 解释 一 个 二 元 分 类 器 性 能 的 过 程 进 行 了 探讨 。 首 先 ， 我 们 需要 安装 和 导入 ROCR 库 ， 然 后 调用 e1071 包 的 svm 函 数 训 | 练 得 到 一 个 分 类 模型 ， 然 后 使 用 模型 对 测试 数据 


集 进 行 类 别 预 测 。 接 下 来 ， 使 用 预测 函数 (来 自 ROCR 包 ) 获得 预测 结果 ， 表 使 用 性 能 评估 遂 数 计算 真正 率 与 假 正 率 ， 


为 0.92， 它 说 明了 svm 分 类 器 对 telecom churn 数 据 集 的 分 类 效果 不 错 。 
4. 扩 展 


如 果 读 者 对 ROC 的 概念 和 技术 感 兴趣 ， 可 以 参考 以 下 文档 : 


http://en.wikipedia.org/wiki/Receiver operating characteristic 


7.12 利用 caret 包 比较 ROC 曲 线 


E 


Hx 


后 采用 plot 函 数 绘制 模型 的 ROC 曲 线 图 ， 并 将 其 AUC 值 标注 在 图 上 。 样 例 的 AUC 值 


在 前 述 内 容 中 ， 我 们 探讨 了 多 种 分 类 算法 ， 每 种 算法 都 有 其 优 缺点 ， 因 而 当 我 们 针对 具体 问题 去 判断 选择 哪 种 算法 最 适合 时 ， 必 须 能 够 对 不 同 预测 模型 的 性 能 进行 评估 。 为 了 简化 这 个 比较 过 程 ， 我 们 
可 以 使 用 caret 包 来 生成 并 比较 不 同 的 模型 及 其 性 能 。 本 节 将 使 用 caret 包 提供 的 函数 对 同一 数据 集 上 基于 不 同 算法 建立 的 模型 进行 性 能 比较 。 


1. 准 备 


本 节 将 继续 使 用 telecom churn 数 据 集 作 为 输入 数据 源 。 


2. 操 作 


执行 以 下 操作 ， 生 成 每 一 个 模型 的 ROC 曲 线 : 


1) 安装 并 导入 PROC 库 : 


> install.packages("pROC") 


» library("pROC") 


2) 将 训练 控制 方法 设置 为 10 折 交叉 验证 ， 重 复 次 数 为 3: 


> control 


trainControl (method = "repeatedcv", 


n" number - 10, 

- repeats - 3, 

- classProbs - TRUE, 

- summaryFunction = twoClassSummary) 
3) 使 用 glm 在 训练 数据 集 上 训练 一 个 分 类 器 : 

> glm.model- train(churn ~ ., 

- data - trainset, 

+ method = "glm", 

- metric "ROC", 

- trControl - control) 
4) 使 用 svm 在 训练 数据 集 上 训练 一 个 分 类 器 : 

> svm.model- train (churn ~ ., 

- data - trainset, 

- method - "svmRadial", 

+ metric = "ROC", 

一 trControl - control) 
5) 使 用 rpart 函 数 查看 rpart 在 训练 数据 上 的 运行 情况 : 

> rpart.model- train(churn ~ ., 

- data - trainset, 

一 method = "rpart", 

iĝ metric = "ROC", 

- trControl = control) 


6) 使 用 不 同 的 已 训练 好 的 模型 分 别 进行 预测 : 


> glm.probs = predict(glm.model, 


c("churn")], type = "prob") 


> svm.probs 


c("churn")], type = "prob") 


> rpart.probs = predict(rpart.model, 
type = "prob") 


win% c("churn")], 


7) 生成 每 个 模型 的 ROC 曲 线 ， 将 它们 绘制 在 同一 个 图 中 : 


predict (svm.model, 


testset[,! names (testset) 


names (testset) %in% 


testset[,! 


testset[,! names(testset) 


> glm.ROC = roc(response = testset[,c("churn")], 


一 predictor -glm.probs$yes, 
+ levels = levels(testset[,c("churn")])) 
> plot(glm.ROC, type-"S", col-z"red") 


Call: 
roc.default(response = testset[, c("churn")], predictor = glm. 
probs$yes, levels - levels(testset[, c("churn")])) 


Data: glm.probs$yes in 141 controls (testset[, c("churn")] yes) > 
877 cases (testset[, c("churn")] no). 


Area under the curve: 0.82 


> Svm.ROC = roc(response = testset[,c("churn")], 

- predictor -svm.probs$yes, 

E levels = levels(testset[,c("churn")])) 

> plot(svm.ROC, add-zTRUE, col-"green") 

Call: 

roc.default(response = testset[, c("churn")], predictor = swm. 
probs$yes, levels = levels(testset[, c("churn")])) 


Data: svm.probs$yes in 141 controls (testset[, cí("churn")] yes) > 
877 cases (testset[, c("churn")] no). 


Area under the curve: 0.92233 


> rpart.ROC = roc(response = testset[,c("churn")], 
- predictor -rpart.probs$yes, 
十 levels = levels(testset[,c("churn")])) 


V 


plotí(rpart.ROC, add-TRUE, col-"blue") 


Call: 
roc.default(response = testset[, c("churn")], predictor = rpart. 
probs$yes, levels = levels(testset[, c("churn")])) 


Data: rpart.probs$yes in 141 controls (testset[, c("churn")] yes) 
> 877 cases (testset[, c("churn")] no). 


Area under the curve: 0.7581 
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三 种 分 类 器 性 能 的 ROC 曲 线 图 


3. 原 理 


分 别 使 用 
模型 ROC 曲 
算法 中 效果 


本 节 我 们 将 不 同 分 类 模型 的 ROC 曲 线 绘制 在 同一 个 图 中 进行 性 能 比较 。 首 先 ， 设 置 训练 过 程 的 控制 参数 为 重复 三 次 的 10 折 交叉 验证 ， 模 型 性 能 评估 参数 设置 为 twoClassSummary， 然 
glIm、svm 和 rpart 三 种 不 同 的 分 类 方法 建立 分 类 模型 ， 并 分 别 利 用 构建 好 的 模型 进行 类 别 预 测 ， 表 根据 预测 结果 绘制 相应 的 ROC 曲 线 图 。 从 结果 图 可 知 ， 基 于 svm (绿色 ) 方法 训练 得 到 的 分 
线 的 AUC 值 最 大 ， 为 0.9233，glm (红色 ) 的 AUC 值 为 0.82，rpart 模 型 的 AUC 值 (3&&) 为 0.7581。 从 步骤 7) 中 的 图 可 以 很 明确 显示 ，svm 对 训 | 练 数据 集 的 的 预测 结果 (未 调 优 ) 是 三 种 分 ; 
最 好 的 。 


4 扩展 


我 们 也 可 以 使 用 另外 一 个 具备 ROC 可 视 化 功能 的 算法 包 PROC 来 绘制 并 分 析 ROC 曲 线 ， 如 果 读 者 希望 了 解 有 关 该 算法 包 的 详细 信息 ， 可 以 使 用 help 函 数 : 


> help(package-"pROC") 


7.13 ”利用 caret 包 比较 模型 性 能 差异 


在 前 述 章节 中 ， 我 们 介绍 了 生成 模型 的 ROC 曲 线 的 方法 ， 同 时 还 将 这 些 不 同 模型 的 ROC 曲 线 绘制 在 一 个 图 中 。 除 了 使 用 ROC 曲 线 ， 我 们 还 可 以 通过 重 采 样 的 方法 得 到 每 一 个 匹配 模型 的 统计 信息 ， 包 括 
ROC 曲 线 、 灵 敏 度 和 特异 度 ， 然 后 再 基于 这 些 统计 信息 来 比较 不 同 模型 的 性 能 差异 。 本 节 将 探讨 使 用 caret 包 来 比较 模型 间 的 性 能 差异 。 


1. 准 备 

读者 需要 完成 7.12 节 的 相关 操作 ， 准 备 好 glm 分 类 模型 、svm 分 类 模型 和 rpart 分 类 模型 ， 并 分 别 存放 在 glm.model、svm.model 和 rpart.model 中 。 
2. 操 作 

完成 以 下 操作 ， 以 评测 不 同 模型 的 性 能 差异 : 

1) 对 三 个 训练 好 的 模型 进行 重 采样 : 


> cv.values = resamples(list(glm = glm.model, svm-svm.model, rpart 
- rpart.model)) 


2) 输出 重 采样 的 结果 概述 : 


> summary (cv.values) 


Call: 


summary.resamples(object - cv.values) 


Models: glm, svm, rpart 


Number of resamples: 30 


ROC 


Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 
glm 0.7206 0.7847 0.8126 0.8116 0.8371 0.8877 


svm 0.8337  Á 0.8673 0 
rpart 0.2802 0.7159 0 


Sens 


Min. 1st Qu. 


.8946 0.8929 0.9194 0.9458 
.7413 0.6769 0.8105 0.8821 


Median Mean 3rd Qu. Max. 


NA's 


glm 0.08824 400.2000 0.2286 0.2194 0.2517 0.3529 0 
svm 0.44120 40.5368 0.5714 0.5866 0.6424 0.7143 
0.4706 0.4745 0.5929 0.6471 0 


rpart 0.20590 0.3742 


Spec 

Min. 1st Qu. 
glm 0.9442 0.9608 
svm 0.9442 0.9646 
rpart 0.9492 0.9709 


3) 使 用 dot plot 函 数 绘制 重 采样 在 ROC 曲 线 度 量 中 的 结果 : 


> dotplot (cv.values, 





4) 使 用 箱 线 图 绘制 重 采 样 结果 : 


Median Mean 3rd Qu. Max. 
0.9746 0.9701 0.9797 0.9949 
0.9746 0.9740 0.9835 0.9949 
0.9797 0.9780 0.9848 0.9949 


metric = "ROC") 


ROC 
Confidence Levet 0.95 


重 采 样 结果 的 ROC 点 图 


NA's 
0 
0 
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> bwplot(cv.values, layout = c(3, 1)) 


3. 原 理 


本 节 展 示 了 使 用 重 采 样 方法 来 比较 分 类 模型 性 能 的 过 程 。 首 先 ， 我 们 调用 resample 函 数 来 生成 各 模型 的 统计 信息 (svm.model、glm.model 以 及 rpart.model) ; 再 调用 summary 函 数 输出 三 个 模型 在 
ROC、 灵 敏 度 和 特异 度 上 的 统计 信息 ; 然后 分 别 调用 dotplot 方 法 处 理 重 采样 结果 来 观察 不 同 模型 ROC 的 差异 ; 最 后 ， 采 用 箱 线 图 在 同一 张 图 上 对 重 采 样 结果 在 ROC、 灵 敏 度 及 特异 性 方面 的 差别 进行 了 区 
分 比较 。 





重 条 样 结果 的 箱 线 图 


4. 扩 展 


除了 dotplot 和 bwplot 可 以 完成 对 性 能 差异 的 评估 ， 我 们 还 可 以 使 用 densityplot.splom 以 及 xyplot 函 数 来 可 视 化 不 同 预 测 模 型 在 ROC、 灵 敏 度 及 特异 度 等 方面 的 差异 。 


8.1 简介 


集成 学 习 是 指 将 多 个 分 类 器 的 预测 结果 进行 组 合 得 到 最 终 决策 来 获得 更 好 的 分 类 及 回归 性 能 。 在 前 述 章节 中 ， 我 们 分 别 探讨 了 几 种 不 同 的 分 类 算法 ， 尽 管 这 些 算法 的 思想 大 相 径 庭 ， 但 它们 的 目标 都 是 
一 致 的 ， 那 就 是 希望 能 得 到 最 佳 的 分 类 模型 。 然 而 ， 单 一 分 类 器 大 多 只 适合 于 某 种 特定 类 型 的 数据 ， 很 难保 证 分 类 性 能 始终 最 优 。 因 而 ， 一 个 更 好 的 办 法 是 采用 投票 方法 从 这 些 分 类 器 的 结果 中 选择 最 优 的 
模型 ， 换 名 话说， 如 果 我 们 对 不 同 算法 的 预测 结果 取 平 均 ， 相 比 只 使 用 一 个 分 类 器 ， 可 能 会 得 到 更 好 的 分 类 模型 


目前 ，bagging、boosting 和 随机 森林 是 应 用 最 为 广泛 的 三 类 集成 学 习 算 法 ， 其 中 : 
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: Bagging 是 投票 式 算法 ， 首 先 使 用 Bootstrap 产 生 不 同 的 训练 数据 集 ， 然 后 再 分 别 基 于 这 些 训练 数据 集 得 到 类 器 ， 最 后 通过 对 基础 分 类 器 的 分 类 结果 进行 组 合 得 到 一 个 相对 更 优 的 预测 模型 。 


: Boosting 与 bagging 类 似 ， 主 要 差别 在 于 在 boosting 算 法 中 ， 基 础 分 类 器 的 学 习 是 顺序 进行 的 ， 后 一 轮 分 类 器 的 学 习 与 之 前 分 类 器 的 分 类 结果 有 关 ， 即 是 在 错 分 样本 基础 上 进行 学 习 。boosting 算 法 通过 这 
样 一 种 补偿 学 习 的 方式 ， 达 到 了 利用 前 一 轮 分 类 误差 来 调整 后 轮 基 础 分 类 器 的 目的 以 获得 更 好 的 分 类 性 能 。 
随机 森林 是 一 个 包含 多 个 决策 树 的 分 类 器 ， 通 过 投票 来 得 到 分 类 结果 。 算 法 思想 非常 简单 ， 对 于 每 一 类 特征 向 量 会 产生 一 棵 单独 的 分 类 决策 树 并 得 到 一 个 分 类 结果 ， 然 而 在 随机 森林 中 包含 多 个 这 样 


的 分 类 树 ， 相 对 一 个 输入 将 产生 多 个 分 类 结果 ， 随 机 森林 则 从 这 些 分 类 结果 中 选择 投票 数 最 高 的 决策 树 完 成 数据 分 类 ， 或 者 选择 一 个 平均 值 作为 回归 处 理 的 输出 。 
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在 接 下 来 的 内 容 中 ， 我 们 将 探讨 如 何 使 用 bagging 和 boosting 算 法 完成 数据 分 类 ， 并 利用 交叉 验证 技术 来 估计 每 个 分 类 器 的 误差 以 及 说 明 通 过 边缘 来 检测 模型 的 确定 性 。 本 节 还 将 引入 随机 
该 算法 思想 类 似 bagging 和 boosting， 我 们 将 讨论 基于 随机 森林 训练 分 类 模型 和 使 用 边缘 来 评估 分 类 器 的 确定 性 等 问题 。 最 后 还 将 展示 怎样 估计 分 类 器 误差 并 使 用 误差 来 评测 不 同 分 类 
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8.1 简介 


集成 学 习 是 指 将 多 个 分 类 器 的 预测 结果 进行 组 合 得 到 最 终 决策 来 获得 更 好 的 分 类 及 回归 性 能 。 在 前 述 章节 中 ， 我 们 分 别 探讨 了 几 种 不 同 的 分 类 算法 ， 尽 管 这 些 算法 的 思想 大 相 径 庭 ， 但 它们 的 目标 都 是 
一 致 的 ， 那 就 是 希望 能 得 到 最 佳 的 分 类 模型 。 然 而 ， 单 一 分 类 器 大 多 只 适合 于 某 种 特定 类 型 的 数据 ， 很 难保 证 分 类 性 能 始终 最 优 。 因 而 ， 一 个 更 好 的 办 法 是 采用 投票 方法 从 这 些 分 类 器 的 结果 中 选择 最 优 的 
模型 ， 换 名 话说， 如 果 我 们 对 不 同 算法 的 预测 结果 取 平 均 ， 相 比 只 使 用 一 个 分 类 器 ， 可 能 会 得 到 更 好 的 分 类 模型 


目前 ，bagging、boosting 和 随机 森林 是 应 用 最 为 广泛 的 三 类 集成 学 习 算 法 ， 其 中 : 
: Bagsing 是 投票 式 算法 ， 首 先 使 用 Bootsttap 产 生 不 同 的 训练 数据 集 ， 然 后 再 分 别 基 于 这 些 训 练 数据 集 得 到 多 个 基础 分 类 器 ， 最 后 通过 对 基础 分 类 器 的 分 类 结果 进行 组 合 得 到 一 个 相对 更 优 的 预测 模型 。 


: Boosting 与 bagging 类 似 ， 主 要 差别 在 于 在 boosting 算 法 中 ， 基 础 分 类 器 的 学 习 是 顺序 进行 的 ， 后 一 轮 分 类 器 的 学 习 与 之 前 分 类 器 的 分 类 结果 有 关 ， 即 是 在 错 分 样本 基础 上 进行 学 习 。boosting 算 法 通过 这 
样 一 种 补偿 学 习 的 方式 ， 达 到 了 利用 前 一 轮 分 类 误差 来 调整 后 轮 基 础 分 类 器 的 目的 以 获得 更 好 的 分 类 性 能 。 


tO 随机 森林 是 一 个 包含 多 个 决策 树 的 分 类 器 ， 通 过 投票 来 得 到 分 类 结果 。 算 法 思想 非常 简单 ， 对 于 每 一 类 特征 向 量 会 产生 一 棵 单独 的 分 类 决策 树 并 得 到 一 个 分 类 结果 ， 然 而 在 随机 森林 中 包含 多 个 这 样 
的 分 类 树 ， 相 对 一 个 输入 将 产生 多 个 分 类 结果 ， 随 机 森林 则 从 这 些 分 类 结果 中 选择 投票 数 最 高 的 决策 树 完成 数据 分 类 ， 或 者 选择 一 个 平均 值 作为 回归 处 理 的 输出 。 


在 接 下 来 的 内 容 中 ， 我 们 将 探讨 如 何 使 用 bagging 和 boosting 算 法 完成 数据 分 类 ， 并 利用 交叉 验证 技术 来 估计 每 个 分 类 器 的 误差 以 及 说 明 通 过 边缘 来 检测 模型 的 确定 性 。 本 节 还 将 引入 随机 
该 算法 思想 类 似 bagging 和 boosting， 我 们 将 讨论 基于 随机 森林 训练 分 类 模型 和 使 用 边缘 来 评估 分 类 器 的 确定 性 等 问题 。 最 后 还 将 展示 怎样 估计 分 类 器 误差 并 使 用 误差 来 评测 不 同 分 类 
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8.2 使 用 bagging 方 法 对 数据 分 类 


R 的 adabag 包 对 boosting 和 bagging 两 种 方法 都 提供 了 支持 。 其 中 ， 对 于 bagging 算 法 adebag 包 提供 了 Breiman bagging 算 法 ， 在 Breiman bagging 算 法 中 首次 提出 了 多 版 本 分 类 器 理论 ， 得 到 聚合 
分 类 器 。 本 节 将 说 明 如 何 使 用 adabag 包 的 bagging 方 法 对 churn 数 据 集 分 类 。 


1. 准 备 
本 节 将 继续 使 用 telecom churn 数 据 集 作 为 bagging 方 法 的 输入 数据 源 。 如 果 读 者 没有 准备 好 该 数据 集 ， 可 以 参考 第 5 章 相关 内 容 。 
2. 操 作 


执行 以 下 操作 生成 一 个 分 类 器 以 处 理 telecom churn 数 据 集 : 


1) 安装 和 导入 adabag 算 法 包 (安装 过 程 可 能 需要 一 点 时 间 ) : 


> install.packages("adabag") 
> library(adabag) 


2) 调用 bagging 函 数 完成 对 数据 集 的 训练 (训练 过 程 中 可 能 会 产生 不 同 的 结果 ) : 


> get.seed(2) 


> churn.bagging = bagging (churn ~ ., data-trainset, mfinal-10) 
3) 从 bagging 的 结果 评估 变量 的 重要 性 : 


> churn.bagging$importance 
international plan number customer service calls 
10.4948380 16.4260510 
number vmail messages total day calls 


0.5319143 0.3774190 


total day charge 
0.0000000 
total eve calls 
0.1463585 
total eve minutes 
14.2366754 
total intl charge 
0.0000000 

total night calls 
0.4349952 

total night minutes 


2.3379622 


4) 分 类 模型 处 理 好 后 ， 对 测试 数据 集 的 类 标号 进行 预测 : 


total day minutes 
28.7545042 
total eve charge 
0.0000000 
total intl calls 
8.7733895 
total intl minutes 
9.7838256 

total night charge 
0.0000000 

voice mail plan 


7.7020671 


» churn.predbagging- predict.bagging(churn.bagging, 


newdata-testset) 


5) 根据 预测 结果 ， 产 生 分 类 表 : 


> churn.predbagging$confusion 


Observed Class 


Predicted Class yes no 
no 35 866 
yes 106 11 


6) 得 到 bagging 结 果 的 平均 误差 : 


> churn.predbagging$error 


[1] 0.0451866 


3. 原 理 


Bagging 算 法 源 于 Bootstrap aggregating， 有 具有 稳定 、 准 确 、 易 于 实现 的 优点 ， 常 用 于 数据 分 类 及 回归 处 理 。Bagging 算 法 定义 如 下 : 给 定 大 小 为 n 的 数据 集 ， 算 法 采用 Bootstrap 抽 样 ， 得 到 m 个 新 
的 训练 数据 集 Di， 每 个 数据 集 大 小 均 为 n， 通 过 这 m 个 样本 集 得 到 m 个 模型 ， 然 后 通过 求 平均 (回归 问题 ) 或 者 是 投票 方法 (分 类 问题 ) 来 选择 最 优 的 模型 。 


本 节 使 用 了 adabag 包 中 的 boosting 算 法 对 telecom churn 数 据 集 进行 了 分 类 处 理 ， 与 前 述 章节 所 介绍 的 其 他 分 类 方法 一 样 ， 读 者 也 可 以 使 用 标准 公式 和 训练 数据 集训 练 得 到 一 个 boosting 分 类 器 。 并 
且 ， 还 可 以 令 mfinal 参 数 中 迭代 次 数 等 于 10。 当 分 类 模型 建立 好 以 后 ， 就 可 以 利用 其 来 评估 每 一 个 属性 的 重要 性 ， 通 过 对 属性 重要 性 排序 ， 可 以 得 知 “顾客 呼叫 服务 次 数 ”对 分 类 模型 的 影响 是 最 大 的 。 
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bagging 方 法 示意 
接 下 来 ， 对 于 已 建立 的 模型 ， 我 们 使 用 predict.bagging 遂 数 预 测 测试 数据 集 的 类 标号 ， 并 根据 实际 类 标号 和 预测 结果 建立 分 类 表 ， 得 到 样 例 的 平均 误差 为 0.045。 
4. 扩 展 

除了 adabag 包 ， 还 可 以 使 用 ipred 包 构建 一 个 基于 bagging 的 分 类 树 模 型 ， 以 下 将 展示 使 用 ipred 包 的 bagging 方 法 训练 分 类 模型 的 过 程 : 
1) 安装 并 导入 ipred 包 : 

> install.packages ("ipred") 

> library (ipred) 
2) 将 分 类 方法 设置 为 bagging 算 法 : 


> churn.bagging = bagging(churn ~ ., data = trainset, coob = T) 


» churn.bagging 
Bagging classification trees with 25 bootstrap replications 


Call: bagging.data.frame(formula - churn - ., data - trainset, 


coob = T) 


Out-of-bag estimate of misclassification error: 0.0605 


3) 获取 错 分 率 : 


> mean(predict(churn.bagging) != trainset$churn) 


[1] 0.06047516 
4) 使 用 predict 函 数 预测 测试 数据 集 的 分 类 标号 


> churn.prediction = predict (churn.bagging, newdata-testset, 
type="class") 


5) 从 测试 数据 集 的 实际 类 标号 及 预测 结果 生成 分 类 表 : 


> prediction.table = table(churn.prediction, testset$churn) 


churn.prediction yes no 
no 31 869 
yes 110 8 


8.3 ”基于 bagging 方 法 进行 交叉 验证 


为 评测 分 类 器 的 预测 能 力 ， 可 以 使 用 交叉 验证 方法 来 评估 分 类 模型 的 鲁 棒 性 。 本 节 将 介绍 怎样 使 用 bagging.cv 对 bagging 算 法 得 到 的 模型 进行 交叉 验证 。 
1. 准 备 

本 节 仍 将 继续 使 用 telecom churn 数 据 集 作 为 基于 bagging 算 法 的 k 折 交叉 验证 的 数据 源 。 
2. 操 作 

执行 以 下 操作 ， 完 成 基于 bagging 方 法 进行 交叉 验证 获得 最 小 估计 误差 的 任务 : 


1) 首先 调用 bagging.cv 在 训练 数据 集 上 进行 10 次 迭代 的 10 折 交叉 检验 : 


> churn.baggingcv = bagging.cv (churn ~ ., v-z10, data-trainset, 
mfinal-10) 


2) 从 交叉 验证 的 结果 生成 混淆 矩阵 : 


> churn.baggingcv$confusion 
Observed Class 
Predicted Class yes no 
no 100 1938 
yes 242 23 
3) 从 交叉 验证 结果 生成 最 小 估计 误差 : 


> churn.baggingcv$error 


[1] 0.05831533 


3. 原 理 


R 的 adabag 包 提供 了 一 个 在 bagging 算 法 和 boosting 算 法 均 能 实现 k 折 交叉 验证 的 函数 ， 在 本 节 样 例 中 ， 我 们 调用 了 bagging.cv 对 bagging 算 法 实施 了 k 折 交叉 验证 。 具 体 过 程 包括 ， 首 先 将 参数 v 和 
mfinal 的 值 均 设置 为 10， 执 行 一 个 10 次 友 代 的 10 折 交叉 验证 。 注 意 由 于 迭代 次 数 需要 耗费 大 量 时 间 ， 当 验证 完成 后 ， 从 验证 结果 可 获得 模型 的 混淆 矩阵 以 及 平均 误差 (本 例 中 为 0.058) 。 


4 扩展 


如 果 读 者 对 bagging.cv 的 参数 优化 感 兴 趣 ， 可 以 调用 help 函 数 查阅 相关 文档 : 


> help(bagging.cv) 


84 使 用 boosting 方 法 对 数据 分 类 


与 bagging 方 法 类 似 ，boosting 算 法 也 是 先 获得 一 个 简单 的 分 类 器 ， 然 后 通过 调整 错 分 样本 的 权重 逐步 改进 分 类 器 ， 使 得 后 续 分 类 器 能 够 学 习 前 一 轮 分 类 器 的 经 验 。adabag 实 现 了 AdaBoost.M1 和 
SAM ME 两 个 算法 ， 因 此 用 户 能 够 使 用 adabag 包 来 实施 集成 学 习 。 本 节 将 使 用 adabag 包 提供 的 boosting 方 法 对 telecom churn 数 据 集 进 行 分 类 操作 。 
1. 准 备 

本 节 将 继续 将 telecom churn 数 据 集 作为 boosting 分 类 算法 的 输入 数据 源 ， 当 然 ， 在 着 手 学 习 之 前 ， 读 者 必须 先 在 R 中 导入 adabag 包 。 
2. 操 作 

执行 以 下 操作 实现 使 用 boosting 算 法 对 telecom churn 数 据 集 的 分 类 处 理 : 


1) 调用 adabag 包 的 boosting 函 数 训 练 分 类 模型 : 


> Set.seed(2) 


> churn.boost = boosting(churn -.,data-trainset,mfinal-10, 
coeflearn-"Freund", boos-FALSE , control-rpart. 
control (maxdepth-z3)) 


2) 使 用 boosting 训 练 的 模型 对 测试 数据 集 进 行 分 类 预测 : 


> churn.boost.pred = predict.boosting(churn.boost,newdata-testset) 
3) 基于 预测 结果 生成 分 类 表 : 


> churn.boost.pred$confusion 


Observed Class 


Predicted Class yes no 
no 41 858 
yes 100 19 


4) 根据 分 类 预测 结果 计算 平均 误差 : 


> churn.boost.pred$error 


[1] 0.0589391 


3. 原 理 

boosting 算 法 的 思想 是 通过 对 弱 分 类 器 (如 单一 决策 树 ) 的 “逐步 优化 ”， 使 之 成 为 强 分 类 器 。 假 定 当 前 在 训练 数据 集中 存在 n 个 点 ， 对 其 权重 分 别 赋值 为 w;(0<i<n) ， 在 迭代 学 习 过 程 中 (假设 
代 次 数 为 m) ,我 们 将 根据 每 次 芍 代 的 分 类 结果 ， 不 断 调整 这 些 点 的 权重 ,如果 当 前 样 例 点 分 类 是 正确 的 ， 则 调 低 其 权 值 ， 否则 ， 增 加 样 例 点 的 权 值 。 这 样 ， 当 整个 迭代 过 程 结束 时 ， 算 法 将 得 到 m 个 合 i 
的 模型 fi (x) (0<i<n) ， 最 终 ， 通 过 对 每 棵 决策 树 加 权 平 均 得 到 最 后 的 预测 结果 ， 权 值 由 每 棵 决策 树 的 分 类 质量 决定 。 
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boosting 方 法 示意 


bagging 和 boosting 都 采用 了 集成 学 习 的 思想 ， 即 将 多 个 弱 分 类 器 组 合 形成 一 个 强 分 类 器 ， 两 者 不 同 之 处 在 于 ，bagging 算 法 是 组 合 独立 的 模型 ， 而 boosting 则 通过 在 迭代 学 习 过 程 尽 可 能 用 正确 的 分 
类 模型 来 降低 预测 错误 。 本 节 我 们 探讨 了 使 用 boosting 方 法 构建 分 类 模型 的 过 程 。 与 bagging 算 法 类 似 ， 用 户 也 需要 指明 用 于 训练 分 类 模型 的 公式 和 训练 数据 集 。 另 外 ， 用 户 还 可 以 自己 指定 诸如 迭代 次 数 
(mfinal) 、 权 重 更 新 系数 (coeflearn) 、 观 测 值 权重 (boos) 以 及 rpart 的 控制 方法 (单一 决策 树 ) 等 参数 的 值 。 在 本 节 样 例 中 ， 对 于 rpart 配 置 ， 我 们 将 迭代 次 数 设置 为 10， 采 用 


Freund (AdaBoost.M1 算 法 实现 的 方法 ) 作为 系数 (coeflearn) ， 设 置 boos 的 值 为 “false” ， 最 大 深度 为 3。 


样 例 使 用 boosting 方 法 来 构造 分 类 模型 并 将 其 存放 在 churn.boost 内 ， 并 调用 prediction 水 数 获得 预测 类 别 ， 再 使 用 table 函 数 根据 测试 数据 集 的 预测 分 类 和 实际 类 别 产 生 分 类 表 ， 最 后 获得 预测 结果 的 
平均 误差 。 
4. 扩 展 


除了 使 用 adabag 包 的 boosting 函 数 ， 用 户 也 可 以 使 用 caret 包 来 完成 同样 的 功能 : 


1) 装载 mboost 和 PROC 包 : 


> library (mboost) 
> install.packages("pROC") 
> library (pROC) 


2) WFHtrainControlE&gZrili Et imE, Atrain, isFBdadaboostyil|k27 25s 22 : 


> set.seed(2) 

> ctrl = trainControl(method = "repeatedcv", repeats = 1, 
classProbs = TRUE, summaryFunction = twoClassSummary) 

» ada.train - train(churn - ., data - trainset, method - "ada", 
metric = "ROC", trControl = ctrl) 


3) 调用 summary 函 数 输出 分 类 模型 的 详细 信息 : 


> ada.train$result 


nu maxdepth iter ROC Sens Spec ROCSD 
SensSD SpecSD 


LU l 50 0.8571988 0.9152941 0.012662155 0.03448418 
0.04430519 0.007251045 


4 0.1 2 50 0.8905514 0.7138655 0.006083679 0.03538445 
0.10089887 0.006236741 
y met 3 50 0.9056456 0.4036134 0.007093780 0.03934631 
0.09406015 0.006407402 
2 cg. 1 100 0.8550789 0.8918487 0.015705276 0.03434382 
0.06190546 0.006503191 
S uS 2 100 0.8907720 0.6609244 0.009626724 0.03788941 
0.11403364 0.006940001 
8 0.1 3 100 0.9077750 0.3832773 0.005576065 0.03601187 
0.09630026 0.003738978 


3 Di 1 150 0.8571743 0.8714286 0.016720505 0.03481526 
0.06198773 0.006767313 


6 0.1 2 150 0.8929524 0.6171429 0.011654617 0.03638272 
0.11383803 0.006777465 


3 pi 3 150 0.9093921 0.3743697 0.007093780 0.03258220 
0.09504202 0.005446136 


4) 调用 plot 函 数 绘 制 不 同 迭 代 处 理 后 的 ROC 曲 线 图 : 


> plot (ada.train) 
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重复 交叉 验证 示意 


5) 使 用 predict 函 数 预测 并 输出 分 类 表 : 


> ada.predict = predict(ada.train, testset, "prob") 


» ada.predict.result - ifelse(ada.predict[1] » 0.5, "yes", "no") 


» table(testset$churn, ada.predict.result) 


ada.predict.result 


no yes 
yes 40 101 
no 872 5 


85 ”基于 boosting 方 法 进行 交叉 验证 


像 处 理 bagging 函 数 一 样 ，adabag 包 也 支持 对 boosting 方 法 的 交叉 验证 ， 该 功能 可 以 通过 boosting.cv 函 数 实现 。 本 节 将 展示 使 用 adabag 包 中 的 boosting.cv 函 数 完成 交叉 验证 过 程 。 
1. 准 备 

本 节 仍 然 继 续 使 用 telecom churn 数 据 集 作 为 boosting 方 法 的 k 折 交叉 验证 的 输入 数据 源 。 
2. 操 作 

执行 以 下 操作 ， 获 得 boosting 方 法 交叉 验证 后 的 最 小 估计 错误 : 


1) 首先 , 调用 boosting.cv 对 训 | 练 数据 集 实施 交叉 验证 : 


> churn.boostcv = boosting.cv(churn =~ ., vz10, data-trainset, 
mfinal-5,control-rpart.control(cpz0.01)) 


2) 从 boosting 的 结果 生成 混淆 和 矩阵: 


> churn.boostcv$confusion 
Observed Class 

Predicted Class yes no 

no 119 1940 

yes 223 33 


3) 得 到 boosting 方 法 的 平均 误差 : 


> churn.boostcv$error 


[1] 0.06565875 


3. 原 理 


与 bagging.cv 函 数 类 似 ， 可 以 调用 boosting.cv 对 boosting 方 法 进行 交叉 验证 。 如 果 将 函数 参数 v 的 值 设 置 为 10，mfinal 的 值 设置 为 ?，boosting 算 法 会 执行 一 个 ?次 返 代 的 10 折 交叉 验证 。 另 外 可 以 设 
置 参数 进行 rpart 匹 配 控制 。 在 样 例 中 ， 我 们 将 复杂 度 参数 设置 为 0.01。 当 训练 过 程 结束 后 ， 可 以 生成 相应 的 混淆 矩阵 和 平均 误差 。 


4 扩展 


对 boosting.cv 其 他 调 优 参数 感 兴趣 的 读者 ， 可 以 调用 help 函 数 参考 相关 文档 : 


> help(boosting.cv) 


8.6 使 用 gradient boosting 方 法 对 数据 分 类 


gradient boosting 将 弱 分 类 器 组 合 在 一 起 ， 然 后 在 与 损失 遂 数 的 负 梯 度 最 大 相关 时 得 到 新 的 基础 分 类 器 。 用 户 既 可 以 将 它 应 用 于 回归 分 析 也 可 以 用 在 分 类 领域 ,该 方法 对 不 同 数据 集 的 适应 能 力 都 很 
好 。 本 节 将 介绍 如 何 使 用 gbm 遂 数 分 类 telecom churn 数 据 集 的 过 程 。 


1. 准 备 


本 节 继 续 使 用 telecom churn 数 据 集 作为 bagging 方 法 的 输入 数据 源 ， 如 果 读 者 还 没有 该 数据 集 ， 请 参考 第 5 章 相 关内 容 。 
2. 操 作 
执行 以 下 操作 ， 实 现 通 过 gradient boosting 方 法 对 数据 计算 与 分 类 : 
1) 安装 和 导入 gbm 包 : 
> install.packages("gbm") 
> library (gbm) 


2) gbm 响 应 范围 为 0~1， 因 此 ， 需 要 将 yes/no 的 响应 转化 为 数字 0/1 的 响应 : 
> trainset$churn = ifelse(trainset$churn == "yes", 1, 0) 


3) 使 用 gbm 函 数 训 | 练 数据 集 : 


> set.seed(2) 


> churn.gbm = gbm(formula = churn ~ .,distribution = 
"bernoulli",data = trainset,n.trees = 1000,interaction.depth = 
7,shrinkage = 0.01, cv.folds=3) 


4) 调用 summary 输 出 模型 的 详细 信息 : 


> summary (churn.gbm) 


var rel.inf 
total day minutes total day minutes 28.1217147 
total eve minutes total eve minutes 16.8097151 


number customer service calls number customer service calls 


12.7894464 

total intl minutes total intl minutes  9.4515822 
total intl calls total intl calls 238.1379826 
international plan international plan  48.0703900 
total night minutes total night minutes  4.0805153 
number vmail messages number vmail messages  3.9173515 
voice mail plan voice mail plan 2.5501480 
total night calls total night calls 2.1357970 
total day calls total day calls  1.7367888 
total eve calls total eve calls 1.4398047 
total eve charge total eve charge  0.5457486 
total night charge total night charge  0.2130152 
total day charge total day charge 0.0000000 


total intl charge total intl charge  0.0000000 
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训练 模型 的 相对 影响 曲线 图 
5) 通过 交叉 验证 确定 最 佳人 迄 代 次 数 : 


> churn.iter = gbm.perf(churn.gbm,method-"cv") 


Bernoulll deviance 





400 600 
iteration 
性 能 曲线 图 
6) 计算 Bernoulli 损 失 函 数 的 对 数 的 奇 点 值 : 
> churn.predict = predict (churn.gbm, testset, n.trees = churn. 


iter) 
> str(churn.predict) 


num [1:1018] -3.31 -2.91 -3.16 -3.47 -3.48 ... 


7) 绘制 ROC 曲 线 ， 得 到 最 大 准确 率 的 最 佳 临 界 值 : 


> churn.roc = roc(testset$churn, churn.predict) 

» plot(churn.roc) 

Call: 

roc.default(response - testset$churn, predictor - churn.predict) 


Data: churn.predict in 141 controls (testset$churn yes) » 877 
cases (testset$churn no). 


Area under the curve: 0.9393 
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训练 模型 的 ROC 曲 线 


8) 调用 coords 函 数 得 到 最 佳 临 春 值 ， 使 用 该 临界 值得 到 相应 的 预测 类 别 : 


> coords(churn.roc, "best") 
threshold specificity sensitivity 
-0.9495258 0.8723404 0.9703535 


» churn.predict.class - ifelse(churn.predict » coords(churn.roc, 
"best")["threshold"], "yes", "no") 


9) 最 终 从 预测 结果 生成 分 类 表 : 


> table( testset$churn,churn.predict.class) 
churn.predict.class 
no yes 
yes 18 123 
no 851 26 


3. 原 理 


gradient boosting 算 法 的 思想 如 下 : 首先 ， 计 算 每 个 划分 的 数据 集 残 差 的 方差 ， 并 据 此 确定 每 个 阶段 的 最 优 划 分 ， 被 选中 的 模型 将 前 一 阶段 处 理 得 到 的 剩余 方差 作为 学 习 目标 重新 建 模 ， 缩 小 剩余 方差 
值 (错误 ) 。 剩 余 方 差 的 缩减 采用 了 梯度 下 降 技术 ， 即 沿 着 导数 下 降 方向 进行 变化 ， 使 得 剩余 方差 最 小 化 。 如 图 所 示 : 





Gradient F fA Zr iX 


本 节 使 用 了 gbm 包 的 gradient boosting 算 法 对 telecom churan 进 行 分 类 处 理 。 在 开始 分 类 之 前 ,需要 首先 安装 和 导入 gbm 算 法 包 ， 然 后 调用 gbm 遂 数 训练 分 类 模型 。 在 本 节 样 例 中 预测 目标 是 churn 
属性 ， 为 二 进 制 结果 ， 因 此 遂 数 的 distribution 参 数 被 设置 为 bernoulli 分 布 ; 同时 ，n.tree 参 数值 设 为 1000， 参 数 interaction.depth 用 于 定义 训练 过 程 中 决策 树 的 最 大 深度 ， 样 例 中 最 大 深度 为 7; 
shrinkage 为 步 长 减少 参数 ， 表 示 学 习 的 速度 ， 本 例 中 步 长 值 为 0.01; cv.folds 中 交叉 验证 次 数 为 3。 当 模型 训练 完成 后 ， 可 以 调用 summary 函 数 用 图 表 方 式 展现 各 变量 的 相对 影响 度 。 从 结果 可 知 ， 下 降 与 
每 个 变量 的 误差 平方 和 有 关 ， 其 中 total day minutes 是 对 损失 函数 下 降 影响 最 大 的 属性 。 


接 下 来 ， 我 们 调用 了 gbm.perf 函 数 以 获得 最 佳 和 迭代 次 数 。 本 节 样 例 采用 交叉 验证 技术 ， 因 而 method 方 法 参数 被 设置 为 cv。 函 数 进 一 步 输出 了 两 条 曲线 ， 其 中 黑色 曲线 表示 训练 错误 ， 绿 色 代 表 验 证 错 
iR, 错误 评估 采用 训练 时 定义 好 的 伯 努 利 分 布 ， 图 中 蓝 色 虚线 代表 最 优 迭 代 次 数 。 


然后 ， 我 们 使 用 了 predict 函 数 获得 由 伯 努 利 损失 函数 返回 的 对 数 的 奇 点 值 。 为 了 得 到 最 好 的 预测 结果 ， 读 者 可 以 将 参数 n.trees 的 值 设 为 最 佳 迭 代 次 数 。 不 过 由 于 返回 值 依然 是 一 个 对 数 奇 点 值 ， 我 们 仍 
最 后 我 们 调用 了 coords 遂 数 来 寻找 最 佳 切 点 的 阅 值 ，ifelse 消 数 根据 对 数 奇 点 值 来 决定 类 标号 。 之 后 就 可 以 调用 table 逊 数 生成 分 类 表 来 判断 分 类 模型 的 准确 度 。 


4. 扩 展 
除了 使 用 gbm 包 的 boosting 函 数 ， 读 者 还 可 以 使 用 mboost 包 实现 gradient boosting 方 法 对 数据 分 类 : 


1) 安装 和 导入 mboost 包 : 


> install.packages("mboost") 
> library (mboost) 


2) mboost 仅 支持 数值 型 输入 ， 因 而 需要 将 yes/no 类 型 的 输入 转化 为 数值 0/1: 


> trainset$churn = ifelse(trainset$churn -- "yes", 1, 0) 
3) 去 掉 非 数值 型 的 属性 ， 例 如 样 例 中 的 voice_mail_plan 和 international_plan : 


> trainset$voice mail plan = NULL 


» trainset$international plan - NULL 
4) 调用 mboost 训 练 分 类 模型 ; 


> churn.mboost = mboost(churn ~ ., data-trainset, control = 
boost control(mstop = 10)) 


5) 调用 summary 函 数 输出 分 类 模型 的 详细 信息 : 


> summary (churn.mboost) 


Model-based Boosting 


Call: 


mboost (formula = churn ~ ., data 


control (mstop = 10)) 


Squared Error (Regression) 


Loss function: (y - f)^2 


= trainset, 


Number of boosting iterations: mstop = 10 


Step size: 0.1 
Offset: 1.147732 


Number of baselearners: 14 


Selection frequencies: 


control = boost 


bbs(total day minutes) bbs (number customer service 


calls) 
0.6 


6) 最 后 ， 调 用 plot 范 数 绘制 每 个 属性 的 局 部 贡献 图 : 


> par (mfrowzc(1,2)) 


» plot(churn.mboost) 
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total dav minutes 


8.7” 计 算 分 类 器 边 绿 
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重要 属性 的 局 部 贡献 图 
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边缘 是 对 分 类 器 确定 性 的 一 个 度量 ， 能 够 计算 分 类 器 对 正确 分 类 的 支持 度 和 错误 分 类 的 最 大 支持 度 。 本 节 将 探讨 如 何 计算 分 类 器 的 边缘 。 
TES 
读者 需要 完成 前 述 章节 的 相关 操作 ， 保 存 好 一 个 bagging 分 类 器 并 存放 在 churn.bagging 和 churn.predbagging 中 ， 以 及 一 个 boosting 分 类 器 存放 在 churn.boost 和 churn.boost.pred 中 。 


2. 操 作 


1) 调用 margins 函 数 计算 boosting 分 类 器 的 边缘 : 


> boost.margins = margins(churn.boost, trainset) 


» boost.pred.margins - margins(churn.boost.pred, testset) 


2) 调用 plot 函 数 绘制 boosting 分 类 器 的 边缘 累积 分 布 图 : 


> plot (sort (boost.margins[[1]]), (l:length(boost.margins[[1]]))/ 
length (boost.margins[[1]]), type="1",xlim=c(-1,1),main="Boosting: 
Margin cumulative distribution graph", xlab="margin", ylab="% 
observations", col = "blue") 


> lines (sort (boost.pred.margins[[1]]), (1:length(boost.pred. 
margins[[111))/length(boost.pred.margins[[11]1), type-"l", col = 
" green " ) 


» abline(v20, col-"red",lty-2) 


Boosting: Margin cumulative distribution graph 
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boosting 分 类 器 的 边缘 累积 分 布 图 


3) 计算 与 训练 错误 匹配 的 负 边 缘 的 百分比 ， 以 及 与 测试 错误 匹配 的 负 边 缘 的 自分 比 : 


> boosting.training.margin = table(boost.margins[[1]] > 0) 


> boosting.negative.training = as.numeric(boosting.training. 
margin[1]/boosting.training.margin[2]) 


» boosting.negative.training 


[1] 0.06387868 


> boosting.testing.margin = table(boost.pred.margins[[11] > 0) 


> boosting.negative.testing = as.numeric(boosting.testing. 
margin[1]/boosting.testing.margin[2]) 


> boosting.negative.testing 


[1] 0.06263048 


4) 计算 bagging 分 类 器 的 边缘 ， 计 算 过 程 中 ， 系 统 有 可 能 会 提示 “no non-missing argument to min” 的 警告 信息 ， 这 是 表明 将 min/max 函 数 应 用 在 一 个 长 度 为 0 的 数值 型 参数 上 : 


> bagging.margins = margins(churn.bagging, trainset) 


» bagging.pred.margins - margins(churn.predbagging, testset) 


5) 调用 plot 函 数 绘制 bagging 分 类 器 的 边缘 款 积 分 布 图 : 


> plot(sort(bagging.margins[[111), (1:length(bagging. 
margins[[111))/length(bagging.margins[[111), type-"l",xlim-c(- 
1,1),main-"Bagging: Margin cumulative distribution graph", 
xlabsz"margin", ylab="% observations", col = "blue") 


> lines(sort(bagging.pred.margins[[1]1), (1:length(bagging.pred. 
margins[[111))/length(bagging.pred.margins[[11]1), type="1", col = 
"n green n ) 


» abline(vsO0, cols"red",ltyz2) 


Bagging: Margin cumulative distribution graph 
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bagging 分 类 器 的 边缘 累积 分 布 图 


6) 最 后 计算 与 训练 错误 匹配 的 负 边缘 的 百分比 ， 以 及 与 测试 错误 匹配 的 负 边缘 的 百分比 : 


> bagging.training.margin = table(bagging.margins[[11]] > 0) 


> bagging.negative.training = as.numeric (bagging.training. 
margin[1]/bagging.training.margin[2]) 


» bagging.negative.training 
[1] 0.1733401 
> bagging.testing.margin = table(bagging.pred.margins[[11] > 0) 


> bagging.negative.testing = as.numeric(bagging.testing.margin[1]/ 
bagging.testing.margin[21]) 


» bagging.negative.testing 


[1] 0.04303279 


边缘 是 对 分 类 器 确定 性 的 一 种 度量 ， 其 值 是 根据 正确 分 类 样本 数 以 及 最 大 错 分 样本 计算 得 来 ， 分 类 器 边缘 的 计算 公式 如 下 : 


margin ( x, ) = support, ( x, )- max support , (x, ) 


上 述 公 式 中 ， 样 本 xi 的 边缘 等 于 正确 分 类 的 样本 数目 〈c 代 表 正 确 分 类 ) 减 去 被 错 分 到 类 别 j 的 样本 数目 Qsc, Hj=1, , Kk) 。 因 此 ， 正 确 分 类 的 样本 将 建立 正 边缘 ， 而 错 分 样本 则 会 形成 负 边 缘 。 如 
果 边 缘 的 值 接近 1， 则 意味 着 正确 分 类 的 样本 其 可 信 度 非常 高 ， 这 也 意味 着 ， 那 些 分 类 不 确定 的 样本 只 有 较 小 的 边缘 。 


函数 margin 能 够 计算 包括 AdaBoost.M1、AdaBoost-SAMME 以 及 bagging 分 类 器 的 边缘 ， 其 返回 值 为 一 个 边缘 向 量 。 可 以 通过 绘制 边缘 累积 分 布 曲线 来 展现 边缘 分 布 情况 ， 在 上 述 示意 图 中 ，x 轴 为 
分 类 器 的 边缘 ，y 轴 为 边缘 值 小 于 或 等 于 x 轴 的 观测 值 的 百分比 。 如 果 每 个 观测 值 都 能 够 被 划分 到 正确 的 类 别 ， 那 么 分 布 图 将 是 一 条 边缘 值 为 1 (此 处 margin=1) 的 垂直 直线 。 


从 boosting 分 类 器 的 边缘 累积 分 布 曲线 图 可 以 看 到 两 条 曲线 ， 其 中 绿色 曲线 代表 测试 数据 集 的 分 类 边缘 ， 而 蓝 色 曲 线 代表 训练 数据 集 的 分 类 边缘 。 样 例 中 大 约 有 6.39% 的 负 边 缘 与 训练 错误 匹 
配 ，6.26% 的 负 边 缘 与 测试 错误 匹配 。 在 另 一 边 ， 可 以 看 到 大 约 17.33% 的 负 边 缘 与 训练 错误 匹配 ，4.3% 的 负 边 缘 与 测试 错误 匹配 。 通 常情 况 下 ， 训 练 数据 集 的 错 分 样 例 负 边 缘 应 该 与 测试 数据 集 的 错 分 负 边 
缘 差 不 多 ， 所 以 我 们 应 该 再 考虑 一 下 为 什么 样 例 中 训练 数据 集 错 误 的 负 边 缘 比 例 要 远 远 高 于 测试 数据 集 的 负 边 缘 比 例 。 


4 扩展 


如 果 读 者 对 边缘 分 布 图 感 兴趣 ， 可 以 参考 以 下 文档 : 


Kuncheva LI (2004) , Combining Pattern Classifiers: Methods and Algorithms.John Wiley&sons. 


86.8 ”计算 集成 分 类 算法 的 误差 演变 
R 在 adabag 包 中 提供 了 errorevol 函 数 以 方便 用 户 根据 返 代 次 数 估 算 集成 分 类 算法 的 误差 ， 本 节 将 探讨 如 何 使 用 errorevol 函 数 来 展示 每 个 集成 分 类 器 的 误差 演变 过 程 。 
1. 准 备 
读者 需要 准备 好 一 个 训练 好 的 bagging 分 类 器 模型 ， 并 存放 在 变量 churn.bagging 中 ， 同 时 将 准备 好 一 个 训练 好 的 boosting 分 类 器 模型 ， 存 放 在 churn.boost 变 量 中 。 
2. 操 作 
执行 以 下 操作 计算 每 一 个 集成 器 的 误差 演变 。 
1) 调用 errorevol 函 数 计算 boosting 分 类 器 的 误差 演变 : 
> boosting.evol.train = errorevol(churn.boost, trainset) 
» boosting.evol.test - errorevol(churn.boost, testset) 


> plot(boosting.evol.test$error, type = "l", ylim = c(0, 1), 


- main - "Boosting error versus number of trees", xlab - 
"Iterations", 


一 ylab = "Error", col = "red", lwd = 2) 

> lines(boosting.evol.train$error, cex = .5, col = "blue", lty = 
2, lwd = 2) 

^» Jégend("LtonrigBHE*, cI'"E&wE", "tralin"), GOL = 5('red", "blus"], 


lty = 1:2, lwd = 2) 


Boosting error versus number of trees. 








Boosting 分 类 误差 与 决策 树 个 数 的 比较 


2) 调用 errorevol 函 数 计 算 bagging 分 类 器 的 误差 演变 : 


> bagging.evol.train = errorevol(churn.bagging, trainset) 


> bagging.evol.test = errorevol(churn.bagging, testset) 
» plot(bagging.evol.test$error, type - "l", ylim - c(0, 1), 
+ main = "Bagging error versus number of trees", xlab = 


"Iterations", 


- ylab = "Error", col = "red", lwd = 2) 
> lines(bagging.evol.train$error, cex = .5, col = "blue", lty = 2, 
lwd = 2) 


» legend("topright", c("test", "train"), col x c("red", "blue"), 
lty = 1:2, lwd = 2) 
3. 538 


errorest 函 数 能 够 计算 包括 AdaBoost.M1、AdaBoost-SAMME 以 及 bagging 分 类 器 的 误差 演变 ， 并 返回 一 个 误差 演变 向 量 。 本 节 使 用 boosting 和 bagging 分 类 器 来 得 到 不 同 误差 演变 向 量 ， 并 绘制 了 
误差 与 决策 树 数目 对 比 的 示意 图 。 


Bagging error versus number of trees 
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4 扩展 


. 如 果 集 成 分 类 器 存在 过 度 适应 问题 ， 读 者 可 以 调用 ptedictbagging 和 predict.boosting 两 个 函数 对 集成 分 类 模型 进行 剪 枝 ， 更 多 相关 信息 可 通过 help 函 数 查看 pfedict.bagging 和 predict.boosting 函 数 的 详细 信 


em 


> help(predict.bagging) 
> help(predict.boosting) 


8.9 ”使 用 随机 森林 方法 对 数据 分 类 


随机 森林 是 另 一 类 可 用 的 集成 学 习 算法 ， 该 算法 在 训练 过 程 中 将 产生 多 棵 决策 树 ， 每 棵 决策 树 会 根据 输入 数据 集 产 生 相 应 预测 输出 ， 算 法 采用 投票 机 制 选 择 类 别 众 数 作为 预测 结果 。 本 节 将 探讨 如 何 使 
用 randomForest 包 完成 数据 分 类 。 
1. 准 备 

本 节 样 例 继续 使 用 telecom churn 数 据 集 作 为 随机 森林 方法 的 输入 数据 源 。 
2. 操 作 

执行 以 下 操作 使 用 随机 森林 算法 对 数据 分 类 : 


1) 安装 和 导入 randomForest 包 : 


> install.packages ("randomForest") 


> library (randomForest) 


2) 使 用 随机 森林 分 类 器 处 理 训 练 数据 集 : 


> churn.rf = randomForest(churn ~ ., data = trainset 
T) 


» churn.rf 


Call: 


randomForest(formula = churn ~ ., data = trainset, 
T) 


Type of random forest: classification 
Number of trees: 500 


No. of variables tried at each split: 4 


OOB estimate of error rate: 4.88% 
Confusion matrix: 
yes no class.error 
yes 247 95 0.277711178 
no 18 1955 0.009123163 


3) 利用 训练 好 的 模型 对 测试 数据 集 进行 分 类 预测 : 
> churn.prediction = predict (churn.rf, testset) 
4) 类 似 其 他 分 类 人 处理， 产生 分 类 表 : 


> table(churn.prediction, testset$churn) 


churn.prediction yes no 
yes 110 y 
no 31 870 


5) 调用 plot 函 数 绘制 森林 对 象 的 均 方差 : 


» plot(churn.rf) 
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随机 森林 的 均 方 差 


6) 根据 建立 好 的 模型 评估 各 属性 的 重要 度 : 


> importance(churn.rf) 


yes no 
international plan 66.55206691 56.5100647 
voice mail plan 19.98337191 15.2354970 
number vmail messages 21.02976166 14.0707195 
total day minutes 28.05190188 27.7570444 


7) WFBvarlmpPlotEZi sia 5e EB SEC ERBZE: 


> varImpPlot(churn.rf) 
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» margins.rf-margin(churn.rf,trainset) 


> plot(margins.rf) 





9) 还 可 以 使 用 直方 图 来 绘制 随机 森林 的 边缘 分 布 : 


随机 森林 算法 边缘 累计 分 布 示意 


> hist(margins.rf,main-"Margins of Random Forest for churn 


dataset") 


Margins of Random Forest for churn dataset 
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边缘 分 布 直方 图 


10) 调用 boxplot 绘 制 随机 森林 各 类 别 边缘 的 盒 图 : 


> boxplot(margins.rf-trainset$churn, main-"Margins of Random 
Forest for churn dataset by class") 


Margins of Random Forest for churn dataset by class 
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随机 森林 类 别 边缘 金 图 


3. 原 理 

随机 森林 算法 目标 是 通过 将 多 个 弱 学 习 机 (如 单 棵 决策 树 ) 组 合 得 到 一 个 强 学 习 机 。 算 法 的 处 理 过 程 与 bagging 方 法 非常 相似 ， 假 设 当 前 拥有 NN 个 特征 数 为 M 的 样 例 ， 首 先 采用 bootstrap 对 数据 集 进行 
采样 ， 每 次 随机 采样 N 个 样本 作为 单个 决策 树 的 训练 数据 集 。 在 每 个 节点 ， 算 法 首先 随机 选取 m (m««M) 个 变量 ， 从 它们 中 间 找 到 能 够 提供 最 佳 分 割 效 果 的 预测 属性 ; 然后 ， 算 法 在 不 前 枝 的 前 提 下 生成 
单 棵 决策 树 ; 最 后 从 每 棵 决策 树 都 得 到 一 个 分 类 预测 结果 。 如 果 是 回归 分 析 ， 算 法 将 取 所 有 预测 的 平均 值 或 者 加 权 平 均值 作为 最 后 输出 ， 如 果 是 分 类 问题 ， 则 选择 类 别 预测 众 数 作为 最 终 预 测 。 


训练 数据 (个 数 =n) 
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平均 或 投票 





随机 森林 算法 包括 两 个 参数 : ntree (决策 树 个 数 ) 和 mtry (可 用 来 寻找 最 佳 特征 的 特征 个 数 ) ， 而 bagging 算 法 仅 使 用 了 ntree 一 个 参数 ， 因 此 ， 如 果 将 mtry 设 置 成 与 训练 数据 集 的 特征 值 一 样 大 时 ， 
随机 森林 算法 就 等 同 于 pagging 算 法 了 。 


随机 森林 算法 的 最 大 优点 在 于 计算 容易 ， 能 够 高 效 地 处 理 数据 ， 对 缺失 数据 或 不 平衡 的 数据 的 容错 度 也 比较 高 。 算 法 的 主要 缺点 是 它 不 能 预测 超过 训练 数据 集 之 外 的 数据 ， 因 此 很 容易 被 噪声 数据 影响 
出 现 过 度 适 应 问题 。 


本 节 利 用 randomForest 包 提供 的 随机 森林 算法 建立 了 分 类 模型 。 我 们 首先 需要 装载 和 导入 randomForest 包 到 R 会 话 中 ， 然 后 调用 random forest 方 法 训练 得 到 一 个 分 类 模型 ， 样 例 中 参数 importance 
的 值 被 设置 为 “T” ， 以 确保 对 预测 器 的 重要 性 进行 评估 。 


与 bagging 和 boosting 方 法 类 似 ， 一 旦 随机 森林 的 模型 构建 完毕 ， 我 们 就 能 利用 其 对 测试 数据 集 进 行 预测 ， 并 得 到 相应 的 分 类 表 。 


randomForest 包 还 提供 了 importance 和 varlmpPlot 两 个 浮 数 用 来 评估 每 个 属性 的 重要 性 ， 其 中 importance 函 数 将 列表 展示 模型 中 每 个 属性 的 重要 性 ， 而 varImpPlot 函 数 则 可 以 通过 绘制 平均 精确 率 
下 降 或 平均 基尼 下 降 曲 线 实现 属性 重要 性 的 可 视 化 、。 


randomForest 包 和 adabag 包 使 用 margin 函 数 计算 bagging 和 boosting 方 法 的 分 类 边缘 一 样 ， 也 提供 了 margin 函 数 来 计算 森林 对 象 的 边缘 。 我 们 可 以 通过 调用 plot.hist 和 boxplot 函 数 从 不 同方 面 绘制 
正确 分 类 样本 比例 的 边缘 。 


4. 扩 展 
除了 randomForest 包 ，R 还 提供 了 party 包 可 以 同样 实现 随机 森林 算法 。 接 下 来 ， 我 们 将 展示 如 何 调用 party 包 的 cforest 印 数 来 实现 随机 森林 分 类 。 


1) 安装 和 导入 party 包 : 


> install.packages ("party") 
> library (party) 


2) 调用 cforest 函 数 训练 分 类 模型 : 


> churn.cforest = cforest(churn ~ ., data = trainset, 
controls-cforest unbiased(ntree-1000, mtry-5)) 


» churn.cforest 


Random Forest using Conditional Inference Trees 


Number of trees: 1000 


Response:  churn 


Inputs: international plan, voice mail plan, number vmail 
messages, total day minutes, total day calls, total day charge, 
total eve minutes, total eve calls, total eve charge, total 
night minutes, total night calls, total night charge, total intl 
minutes, total intl calls, total intl charge, number customer 
service calls 


Number of observations: 2315 
3) 利用 训练 好 的 模型 对 测试 数据 集 进行 分 类 预测 : 


> churn.cforest.prediction = predict(churn.cforest, testset, 
OOB-TRUE, type = "response") 


4) 基于 测试 集 的 预测 结果 和 实际 类 别 生成 分 类 表 : 


> table(churn.cforest.prediction, testset$churn) 


churn.cforest.prediction yes no 
yes 91 3 
no 50 874 


8.10 ”估算 不 同 分 类 器 的 预测 误 
在 本 章 开 始 时 ， 我 们 曾经 讨论 了 使 用 集成 学 习 的 原因 ， 以 及 相 比 单一 分 类 器 ， 集 成 分 类 对 预测 性 能 的 改善 原因 。 为 了 比较 不 同 的 分 类 器 ， 我 们 将 通过 对 多 种 分 类 算法 采用 ipred 包 的 erroreset 函 数 进行 
10 折 交叉 验证 ， 来 证 明 集 成 分 类 器 是 否 比 单 一 决策 树 分 类 效果 更 优 。 
1. 准 备 
本 节 仍 然 使 用 telecom churn 数 据 集 作为 输入 数据 源 来 完成 对 不 同 分 类 器 错 分 率 的 评估 。 
2 RF 
执行 以 下 操作 ， 完 成 对 各 分 类 器 错 分 率 的 评估 : 


1) bagging 模 型 的 错 分 率 评估 方法 如 下 : 


> churn.bagging= errorest(churn ~ ., data = trainset, model = 
bagging) 


> churn.bagging 


Calli 


errorest.data.frame(formula = churn ~ ., data = trainset, model = 
bagging) 


10-fold cross-validation estimator of misclassification error 


Misclassification error: 0.0583 


2) boosting 模 型 的 错 分 率 评 佑 方法 如 下 : 


> install.packages("ada") 
> library (ada) 


> churn.boosting= errorest (churn ~ ., data = trainset, model = 
ada) 


> churn.boosting 


Culls 


errorest.data.frame(formula = churn ~ ., data = trainset, model = 
ada) 


10-fold cross-validation estimator of misclassification error 


Misclassification error: 0.0475 


3) 评估 随机 森林 模型 的 错 分 率 : 


> churn.rf= errorest(churn ~ ., data = trainset, model = 
randomForest) 


» churn.rf 


Calls 


errorest.data.frame(formula - churn - ., data - trainset, model - 
randomForest) 


10-fold cross-validation estimator of misclassification error 


Misclassification error: 0.051 


4) 调用 churn.predict 对 测试 数据 集 进行 分 类 预测 ， 并 对 单 棵 决策 树 的 错 分 率 进行 评 佑 : 


3. 原 理 


> churn.predict = function(object, newdata) (predict(object, 
newdata - newdata, type - "class")) 

» churn.tree- errorest(churn - ., data - trainset, model - 
rpart,predict - churn.predict) 


» churn.tree 


Call: 
errorest.data.frame(formula - churn - ., data - trainset, model - 
rpart, 

predict - churn.predict) 


10-fold cross-validation estimator of misclassification error 


Misclassification error: 0.0674 


aT fsHipred&rhüSerrorestegZir boosting, bagging, BURN, LAM ERAT 2SbU URBI ZSESRUIB RAT J F. erroresteRZID pb 2essAPMG f 1032 SLE, ZAIRVT ER 
分 率 。 从 比较 结果 可 知 ，boosting 方 法 的 错 分 率 最 低 (0.0475) 、 人 性 能 最 佳 ， 随 机 森林 方法 排名 第 二 ， 错 分 率 为 0.051，bagging 方 法 的 错 分 率 为 0.0583， 而 单 棵 决策 树 分 类 器 rpart 是 四 种 分 
错 分 率 高 达 0.0674。 通 过 比较 ， 可 以 看 出 三 种 集成 学 习 方法 boosting、bagging 和 随机 森林 的 性 能 均 优 于 单 棵 决策 树 分 类 器 。 
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本 节 提 到 了 ada 包 ， 该 算法 包 提 供 了 能 够 支持 随机 boosting 分 类 的 方法 ， 如 果 读 者 对 该 算法 包 感 兴趣 ， 可 以 参考 文档 : 


Additive Logistic Regression: A Statistical View of Boosting by Friedman, et al. (2000) . 


聚 类 是 将 相同 、 相 似 的 对 象 划分 (类 似 采 用 距离 定义 ) 到 同一 个 组 ($&) 中 的 技术 ， 与 前 述 章节 介绍 过 的 监督 学 习 (分 类 和 回归 ) 不 同 ， 聚 类 分 析 事 先 不 需要 参考 任何 分 类 信息 ， 而 可 以 简单 地 通过 判 
断 数据 特征 的 相似 性 来 完成 对 数据 的 归 类 


类 分 析 在 商务 领域 的 应 用 非常 广泛 。 例 如 ， 市 场 部 门 可 以 通过 聚 类 算法 根据 个 人 属性 划分 客户 ， 再 针对 不 同类 型 客户 分 别 制定 广告 营销 活动 。 层 次 聚 类 、k 均 值 聚 类 、 基 于 模型 的 聚 类 以 及 基于 密度 的 


. 层次 聚 类 : 层次 聚 类 算法 将 产生 一 个 聚 类 层次 ， 并 将 聚 类 层次 以 系统 树 图 (dendrogram) 的 形式 展现 。 层 次 聚 类 算法 不 需要 事先 指定 符 的 个 数 。 
KIAR: 上 均值 聚 类 也 称 为 扁平 聚 类 ， 与 层次 聚 类 不 同 ，k 均 值 聚 类 不 会 生成 聚 类 层次 ， 并 且 算法 需要 事先 确定 竹 的 个 数 ， 但 是 k 均 值 聚 类 算法 性 能 要 优 于 层次 聚 类 。 


* 基于 模型 的 聚 类 : 层次 聚 类 和 K 均 值 聚 类 都 采用 局 发 式 方法 构建 聚 类 ， 不 需要 依赖 任何 形式 化 模型 ， 而 基于 模型 的 聚 类 算法 则 事先 假定 存在 某 个 数据 模型 ， 并 应 用 EM 算法 试图 求 出 最 相近 的 模型 参数 


YA A d AN Ao 
: 基于 密度 的 聚 类 : 该 算法 将 分 布 稠密 的 样本 划分 到 同一 个 徐 ， 并 过 滤 挤 那些 低 密度 的 区 域 。 


接 下 来 的 章节 将 探讨 如 何 使 用 这 四 种 聚 类 算法 来 构建 数据 禾 ， 并 采用 基于 簇 间距 离 平 方 和 与 平均 侧 影 宽度 进行 聚 类 内 部 验证 ， 通 过 Ground truth 方 法 完成 聚 类 的 外 部 验证 。 


9.1 简介 


聚 类 是 将 相同 、 相 似 的 对 象 划分 (类 似 采用 距离 定义 ) 到 同一 个 组 ($&) 中 的 技术 ， 与 前 述 章节 介绍 过 的 监督 学 习 (分 类 和 回归 ) 不 同 ， 聚 类 分 析 事 先 不 需要 参考 任何 分 类 信息 ， 而 可 以 简单 地 通过 判 
断 数 据 特 征 的 相似 性 来 完成 对 数据 的 归 类 。 


聚 类 分 析 在 商务 领域 的 应 用 非常 广泛 。 例 如 ， 市 场 部 门 可 以 通过 聚 类 算法 根据 个 人 属性 划分 客户 ， 再 针对 不 同类 型 客户 分 别 制定 广告 营销 活动 。 层 次 聚 类 、k 均 值 聚 类 、 基 于 模型 的 聚 类 以 及 基于 密度 的 
聚 类 是 目前 四 种 应 用 最 为 广泛 的 聚 类 算法 : 


" 


层次 聚 类 : 层次 聚 类 算法 将 产生 一 个 聚 类 层次 ， 并 将 聚 类 层次 以 系统 树 图 (dendrogram) 的 形式 展现 。 层 次 聚 类 算法 不 需要 事先 指定 繁 的 个 数 。 
“下 均值 聚 类 : 上 均值 聚 类 也 称 为 饥 平 聚 类 ， 与 层次 聚 类 不 同 ，k 均 值 聚 类 不 会 生成 聚 类 层次 ， 并 且 算 法 需要 事先 确定 答 的 个 数 ， 但 是 k 均 值 聚 类 工法 性 能 要 优 于 层次 聚 类 。 


* 基于 模型 的 聚 类 : 层次 聚 类 和 K 均 值 聚 类 都 采用 局 发 式 方法 构建 聚 类 ， 不 需要 依赖 任何 形式 化 模型 ， 而 基于 模型 的 聚 类 算法 则 事先 假定 存在 某 个 数据 模型 ， 并 应 用 EM 算法 试图 求 出 最 相近 的 模型 参数 


VA d A EC o 
. 基于 密度 的 聚 类 : 去 将 分 布 稠密 的 样本 划分 到 同一 个 徐 ， 并 过 滤 掉 那些 低 密度 的 区 域 。 


接 下 来 的 章节 将 探讨 如 何 使 用 这 四 种 聚 类 算法 来 构建 数据 复 ， 并 采用 基于 簇 间 距离 平方 和 与 平均 侧 影 宽度 进行 聚 类 内 部 验证 ， 通 过 Ground truth 方 法 完成 聚 类 的 外 部 验证 。 


9.2 ”使 用 层次 聚 类 处 理 数据 


层次 聚 类 可 以 分 成 凝聚 (agglomerative， 自 底 向 上 ) MAX (divisive, BRAF) 两 种 方法 来 构建 聚 类 层次 ， 但 不 管 采 用 哪 种 方法 ， 算 法 都 需要 首先 通过 距离 相似 性 度量 来 判断 对 数据 究竟 是 采取 合 
并 还 是 分 裂 处 理 。 整 个 算法 的 递归 过 程 一 直 持 续 到 全 部 数据 点 都 归并 到 一 个 簇 中 或 再 也 无 法 对 簇 进行 分 裂 处 理 时 终止 ， 最 后 可 以 使 用 系统 树 图 来 展现 聚 类 的 层次 结构 。 本 节 也 将 探讨 如 何 使 用 层次 聚 类 方法 
来 处 理 客户 数据 集 


1. 准 备 

本 节 将 对 客户 数据 集 进行 层次 聚 类 分 析 ， 将 客户 数据 集 分 成 不 同 的 组 ， 用 户 可 以 从 Github 主 页 上 下 载 样 例 数 据 集 : https;//github.com/ywchiu/ml R cookbook/tree/master/CH9, 
2. 操 作 

执行 以 下 操作 ， 得 到 客户 数据 集 的 聚 类 树 : 


1) 首先 ， 从 customer.csv 文 件 中 导入 样 例 数 据 集 ， 存 入 customer 变 量 中 : 


> customer- read.csv('customer.csv', header=TRUE) 
> head (customer) 


ID Visit.Time Average.Expense Sex Age 


| 3 -| 0 10 
2 2 5 14.5 0 27 
3 8 16 285.5 0 32 
4 4 3 12. 0 30 
5 S 16 24.9 0 23 
6 6 3 12.0 0 15 


2) 检查 数据 集结 构 : 


> str(customer) 


'data.frame': 60 obs. of 5 variables: 


$ ID :dgHE L2 3143 557 B9 10 i. 

$ Visit.Time s LE 3.5 16 5.16 3 LIE 10 B S zi 

$ Average.Expense: num 5.7 14.5 33.5 15.9 24.9 12 28.5 18.8 23.8 
Bod 2x3 

$ Sex : int 0000000000 ... 

$ Age % XB XII 22030 23 2533 LIB LL swi 


3) 对 客户 数据 进行 归 一 化 处 理 : 


> customer = scale(customer[,-11) 


4) 使 用 自 底 向 上 的 聚 类 方法 处 理 数据 集 : 


> hc = hclust(dist(customer, method-"euclidean"), method-2"ward. 
D2 ") 

» hc 

Call: 

hclust(d = dist (customer, method = "euclidean"), method = 


D2") 


Cluster method : ward.D2 
Distance : euclidean 


Number of objects: 60 


5) 最 后 ， 调 用 plot 函 数 绘制 聚 类 树 图 : 


> plot(hc, hang = -0.01, cex = 0.7) 


Cluster Dendrogram 
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dist(customer, method = "euclidean") 
hclust (*, "ward.D2") 





使 用 离 差 平 法 和 〈watd.D2) 绘制 聚 类 树 图 


6) 另外 ， 读 者 还 可 以 使 用 最 短 距离 法 (single) 来 生成 层次 聚 类 并 比较 以 下 两 者 生成 的 聚 类 树 图 的 差异 : 


> hc2 = hclust(dist(customer), method-"single") 
> plot(hc2, hang = -0.01, cex = 0.7) 


Cluster Dendrogram 
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dist(customer) 
hclust (*, "single") 


使 用 最 短 距 离 法 (single) 绘制 聚 类 树 图 





屋 次 聚 类 是 一 种 通过 人 迭代 来 党 试 建立 层次 聚 类 的 方法 ， 通 常 可 以 采用 以 下 两 种 方式 完成 : 
凝聚 层次 聚 类 : 这 是 一 种 自 底 向 上 的 聚 类 算法 。 算 法 开始 时 ， 每 个 观测 样 例 都 被 划分 在 单独 的 徐 中 ， 算 法 计算 得 出 每 个 化 之 间 的 相似 度 〈 距 离 ) ， 并 将 两 个 相似 度 最 高 的 狭 合 并 成 一 个 丛 ， 然 后 反复 


迭代 ， 直 到 所 有 的 数据 都 被 划分 在 一 个 比 中 。 


` 分 裂 层次 聚 类 : 这 是 一 种 自 顶 向 下 的 聚 类 算法 。 算 法 开始 时 ， 每 个 观测 样 例 都 被 划分 在 同一 个 比 中 ， 然 后 算法 开始 将 徐 分 裂 成 两 个 相 蜡 度 最 大 的 小 徐 ， 并 反复 近代， 直到 每 个 观测 值 属于 单独 的 一 个 
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在 执行 层次 聚 类 操作 之 前 ， 我 们 需要 确定 两 个 艇 之 间 的 相似 度 到 底 有 和 多大， 通常 我 们 会 使 用 如 下 一 些 距离 计算 公式 ,: 


最 短 距离 法 (single linkage) 。 计 算 每 个 化 中 两 点 之 间 的 最 短 距 离 : 


dist (C, C, ) - min  dist(a,b) 


aeC; ,beC; 
- 最 长 距离 法 (complete linkage) . TL 4RAM E P A 5 8] 9 KE B: 
dist ( Cr | = max  dist(a,b) 
Ti aeC;,beC; 


平均 距离 法 (average linkage) > HEGAN p $93 3 Z8] 69 335 3E Sj. C[ C; | ZR ARC; 83 X, IG ERG K) : 


dist(C,,C, )= 


b dist(a,b) 


aeC, beC; 








最 小 方差 法 (ward) 。 计 算 化 中 每 个 点 到 合并 后 的 竹中 心 的 距离 差 的 平方 和 (是 CiU Ci; 的 平均 向 量 ) : 


dist (C, C, ) = pa la - u| 


aeC; Uu C; 
本 节 使 用 层次 聚 类 方法 对 客户 数据 集 进行 了 分 析 。 首 先 ， 我 们 从 customer.csv 文 件 中 导入 数据 ， 并 装载 到 customer 数 据 框架 中 ， 该 数据 集 包 括 5 个 变量 来 描述 客户 账户 信息 ， 分 别 是 客户 ID、 客 户 访问 
次 数 、 平 均 开销 、 客 户 性 别 及 年 龄 。 由 于 属性 类 型 之 间 的 差别 ， 需 要 采用 scale 函 数 来 规范 化 各 变 
当 所 有 数据 都 完成 规范 化 预 处 理 后 ， 我 们 调用 hclust 函 数 对 数据 集 进 行 层次 聚 类 分 析 ， 样 例 使 用 了 欧 几 里 得 距离 作为 距离 测度 和 Wardq 最 小 方差 法 执行 凝聚 层次 聚 类 算法 。 


最 后 ， 调 用 plot 函 数 绘 制 聚 类 树 图 。 样 例 的 hang 值 小 于 0， 因 此 聚 类 树 将 从 底部 显示 标签 ， 并 使 用 cex 将 坐标 轴 上 的 标签 字体 大 小 缩小 为 正常 值 的 70%。 此 外 ， 为 了 比较 最 小 方差 法 和 最 短 距离 法 在 层次 
聚 类 上 的 差异 ， 我 们 还 绘制 了 使 用 最 短 距 离 法 得 到 的 聚 类 树 图 (步骤 6) ) 。 


4 扩展 


读者 可 以 选择 不 同 的 距离 计算 标准 和 方法 来 进行 层次 聚 类 分 析 ， 更 多 有 关 dist 和 hclust 的 细节 ， 可 以 参见 : 


“J 


dist 
? hclust 


本 节 使 用 了 hclust 函 数 来 执行 凝聚 层次 聚 类 ， 如 果 读 者 希望 使 用 分 裂 层次 了 肾 类 ， 可 以 调用 diana 函 数 完 成 : 


1) 调用 diana 遂 数 执 行 分 裂 层次 聚 类 : 
> dv = diana(customer, metric = "euclidean") 


2) 调用 summary 函 数 输出 模型 特征 信息 


> summary (dv) 
3) Apot Rh bannerB AE 2S PS ES: 


> plot (dv) 


如 果 读 者 对 绘制 一 个 水 平 的 聚 类 树 图 感 兴趣 ， 可 以 调用 dendextend 算 法 包 ， 按 照 以 下 步骤 进行 操作 即 可 : 


1) 安装 和 导入 dendextend 和 magrittr 包 (如 果 系 统 版 本 为 3.1 及 以 上 ， 不 需要 安装 和 导入 magrittr 包 ) : 


> install.packages("dendextend") 
> library (dendextend) 

> install.packages("margrittr") 
> library (magrittr) 


2) 构建 聚 类 树 图 : 
> dend = customer %>% dist %>% hclust %>% as.dendrogram 
3) 绘制 图 形 : 


dend %>% plot (horiz=TRUE, main = "Horizontal Dendrogram") 


Horizontal Dendrogram 





水 平 聚 类 树 图 


93 ”将 树 分 成 艇 


在 聚 类 树 图 中 可 以 观测 到 聚 类 的 层次 ,但 是 仍然 得 不 到 组 的 信息 ， 不 过 我 们 可 以 定义 一 个 聚 类 树 图 会 拥有 多 少 个 艇 ， 并 控制 树 的 高 度 以 便 将 树 划分 成 不 同 的 组 。 本 节 将 探讨 如 何 使 用 cutree 遂 数 将 数据 


为 了 使 用 cutree 函 数 ， 读 者 需要 完成 前 述 章节 的 操作 以 准备 好 一 个 hclust 对 象 hc。 
2. 操 作 
执行 以 下 操作 ， 将 聚 类 树 切 割 成 给 定数 目的 复 : 


1) 将 数据 分 成 四 组 : 


> fit = cutree(hc, k = 4) 


2) 检查 数据 的 艇 标签 : 


S: TE 
[了 
[30] 44 33344 34444444 33444 343344 434 
[59] 4 3 


3) 统计 每 一 个 簇 中 对 象 数 目 : 


» table(fit) 


LI 
1 2 3 4 
LL B5 x9 


4) 使 用 红色 矩形 框 可 视 化 数据 的 篮 : 


> plot (hc) 
> rect.hclust(hc, k 4 , border="red") 


Cluster Dendrogram 





dist(customer, method = "euclidean ) 
hclust (*, "ward.D2") 
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3. 原 理 


我 们 可 以 指定 之 前 示意 图 中 的 聚 类 树 的 簇 个 数 。 本 节 中 ， 我 们 将 cutree 函 数 中 艇 个 数 指定 为 4。 而 除了 这 种 方法 之 外 ， 我 们 还 可 以 通过 设置 height 参 数 的 值 来 指定 聚 类 树 的 高 度 ， 从 而 达到 切割 聚 类 树 的 
目的 。 


接 下 来 ， 我 们 可 以 输出 艇 中 数据 的 标签 ， 并 调用 table 遂 数 统计 每 个 簇 中 对 象 的 数目 。 从 输出 结果 可 知 ， 样 例 中 对 象 数目 最 多 的 是 艇 4， 最 后 我 们 还 可 以 调用 rect.hclust 遂 数 在 聚 类 树 上 增加 红色 和 矩 形 框 
对 不 同 驴 进行 界定 。 


4. 扩 展 


除了 使 用 红色 矩形 框 来 界定 复 ， 还 可 以 使 用 它 对 单独 某 个 复 进 行 标记 : 


> rect.hclust(hc, k 4 , which -2, border-"red") 


Cluster Dendrogram 


dist(customer, method - "euclidean") 
hclust (*, "ward.D2") 
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同样 ， 读 者 还 可 以 调用 dendextend 包 ， 使 用 不 同 颜色 来 绘制 红色 矩形 框 内 的 各 个 不 同 聚 艇 。 要 想 这 样 做 ， 读 者 必须 完成 前 述 章节 的 操作 后 ， 再 执行 下 列 操作 : 


1) 根据 分 支 所 在 的 簇 不同 ， 对 其 涂 色 : 


> dend %>% color branches (k=4) %>% plot(horiz-TRUE, main = 
"Horizontal Dendrogram") 


2) 在 这 些 复 周围 添加 红色 矩形 框 : 


> dend %>% rect.dendrogram(k-z4,horiz-TRUE) 


Horizontal Dendrogram 
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3) 最 后 ， 在 图 中 添加 一 条 切割 线 来 展示 对 树 的 操作 结果 : 


> abline(v = heights per k.dendrogram(dend) ["4"] + .1, lwd = 2, 
lty = 2, col = "blue") 


Horizontal Dendrogram 








在 水 平 聚 类 树 中 绘制 分 割 线 


9.4 ”使 用 k 均 值 方法 处 理 数据 
k (均值 ) 聚 类 属于 扁平 聚 类 算法 ， 即 进行 一 层 划分 得 到 k 个 复 ， 与 层次 聚 类 算法 开始 不 需要 决定 复数 不 同 ，k 均 值 算法 需要 用 户 事先 确定 好 簇 个 数 ， 因 为 构建 一 棵 聚 类 树 是 非常 耗 时 的 事情 ， 所 以 K 均 值 
聚 类 算法 的 效率 要 优 于 层次 聚 类 。 本 节 将 探讨 如 何 使 用 k 均 值 聚 类 完成 customer 数 据 集 的 分 析 。 
1. 准 备 
本 节 继 续 使 用 customer 数 据 集 作 为 k 均 值 算法 的 输入 数据 源 。 
2. 操 作 
执行 以 下 操作 使 用 k 均 值 算法 完成 对 customer 数 据 集 的 聚 类 : 
1) 使 用 kmeans 方 法 聚 类 customer 数 据 集 : 
> set.seed(22) 
> fit = kmeans(customer, 4) 
s TIE 
K-means clustering with 4 clusters of sizes 8, 11, 16, 25 


Cluster means: 


Visit.Time Average.Expense Sex Age 
1 1.3302016 1.0155226 -1.4566845 0.5591307 
2 -0.7771737 -0.5178412 -1.4566845 -0.4774599 
3 0.8571173 0.9887331 400.6750489 1.0505015 
4 -0.6322632 -0.7299063 0.6750489 -0.6411604 
Clustering vector: 

I AXDAXDEXZXZLZITTIAAXAGITXIGIÉGBiuiGgx34534334 543 
[29] 4443334434444 444334443433444 
[57] 3 4 4 3 


Within cluster sum of squares by cluster: 
[1] 5.90040 11.97454 22.58236 20.89159 
(between SS / total SS = 74.0 %) 


Available components: 


[1] "cluster" "Centers" "totss" 
[4] "withinss" "tot.withinss" "betweenss" 
[7] "size" "iter" "fault 


2) 调用 barplot 遂 数 绘制 每 个 簇 中 心 的 条 形 图 : 


> barplot(t(fit$centers), beside = TRUE,xlab-"cluster", 
ylabz"value") 


cluster 
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3) 最 后 还 可 以 绘制 簇 的 散 点 图 ， 对 属于 不 同 簇 的 观测 点 使 用 不 同 的 颜色 : 


> plot(customer, col = fit$cluster) 


Average Expense 


0 


Visit. TIme 





根据 徐 标 签 区 分 的 答 散 点 图 
3. 原 理 


k 均 值 聚 类 属于 分 裂 聚 类 ， 算 法 目标 是 通过 将 n 个 对 象 划 分 到 k 个 艇 中 ， 使 得 同一 个 艇 中 的 对 象 之 间 的 距离 最 近 ， 算 法 的 目的 是 使 组 内 平方 和 (Within-Cluster Sum of Squares, WCSS) 最 小 。 假 设 x 
是 一 组 给 定 观测 点 ，S={S1，S2，.…，SI 代 表 k 个 划分 ，i 汪 S$ 的 中 心 ，WCSS 公 式 定 义 如 下 : 


2 








k 
f-» 2 |x- 4 


i=] xes; 
k 均 值 聚 类 过 程 可 以 分 成 以 下 5 个 步骤 : 
1) 指定 聚 类 个 数 k; 
2) 随机 产生 k 个 划分 ; 
3) 计算 每 个 划分 的 中 心 ; 
4) 将 观测 点 分 配 到 距离 簇 中 心 最 近 的 一 个 簇 中 ; 
5) 重复 步骤 2) . 3) 和 4) ， 直 到 WCSS 基 本 不 发 生变 化 (或 最 小 化 ) 。 


本 节 展 示 了 使 用 k 均 值 聚 类 算法 聚 类 客户 数据 集 的 过 程 。 与 层次 聚 类 算法 不 同 ，k 均 值 聚 类 算法 要 求 事先 确定 艇 个 数 ， 我 们 在 样 例 中 将 k 值 设置 为 4。 通 过 观察 训练 好 的 模型 可 以 得 到 每 个 簇 的 大 小 、4 个 
簇 的 聚 类 中 心 、 簇 中 的 每 个 观测 点 向 量 以 及 每 个 簇 的 组 内 平方 和 等 信息 。 


另外 ， 我 们 还 使 用 条 形 图 展示 簇 的 信息 ， 使 得 我 们 能 够 更 好 地 理解 属性 是 如 何 影响 艇 划分 的 ， 最 后 ， 我 们 还 能 够 根据 聚 类 标签 使 用 带 彩 色 类 标签 的 散 点 图 来 展示 数据 点 。 
4. 扩 展 


读者 可 以 在 k 均 值 聚 类 算法 中 规定 具体 的 聚 类 方法 ， 如 Hartigan-Wong、Lloyd、Forgy 以 及 MacQueen。 更 多 内 容 请 使 用 help 遂 数 参 考 kmeans 遂 数 的 帮助 文档 : 


>help (kmeans) 


9.5 ”绘制 二 元 聚 类 图 


前 述 章节 中 我 们 使 用 k 均 值 方法 将 数据 划分 到 不 同 的 复 中 ， 但 当 变 量 个 数 大 于 2 时 ， 就 无 法 在 二 维 空间 中 来 展示 数据 聚 类 的 过 程 。 因 此 我 们 可 以 使 用 二 元 聚 类 图 先 将 变量 减少 成 两 个 主要 成 分 ， 然 后 再 利 
用 组 件 (诸如 轴线 和 椭圆 ) 来 展示 数据 聚 类 的 结果 。 本 节 将 探讨 如 何 绘制 二 元 聚 类 图 。 
1. 准 备 

本 节 将 继续 使 用 customer 数 据 集 作为 绘制 二 元 聚 类 图 的 输入 数据 源 。 
2 RF 

执行 以 下 操作 ， 完 成 绘制 二 元 聚 类 图 : 


1) 安装 和 导入 cluster 包 : 


> install.packages("cluster") 


> library (cluster) 


2) 绘制 二 元 聚 类 图 : 


> clusplot(customer, fit$cluster, color-TRUE, shade-TRUE) 


CLUSPLOT( customer ) 
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Component 1 
These two components explain 85.01 % of the point variability. 





customet 数 据 集 的 二 元 聚 类 


3) 对 二 元 聚 类 图 进行 标记 并 放大 : 


par (mfrow= c(1,2)) 


> 

> clusplot (customer, fit$cluster, color-TRUE, shade-TRUE) 
» rect(-0.7,-1.7, 2.2,-1.2, border - "orange", lwd-2) 
> 


clusplot(customer, fit$cluster, color = TRUE, xlim 


二 - cí(- 
D.1.2.2), lim - GE(-1.7,-1.2]] 


CLUSPLOT( customer ) CLUSPLOT( customer ) 


Component 2 
Component 2 





-J.5 0.5 10 15 20 
Component 1 Component 1 
These two components explain 85.01 % These two components explain 85.01 ? 
二 元 聚 类 图 放大 显示 


3. 原 理 


本 节 绘 制 了 一 个 二 元 聚 类 图 以 展示 数据 聚 类 的 过 程 ， 为 此 我 们 首先 要 安装 和 导入 cluster 算 法 包 ， 然 后 使 用 clusplot 函 数 绘制 customer 数 据 集 的 二 元 聚 类 图 。 样 例 中 ，clusplot 函 数 的 shade 参 数值 和 
color 参 数值 均 被 设置 为 TRUE， 人 得 到 一 个 彩色 且 带 边框 的 聚 类 。 在 第 2) 步 得 到 的 结果 图 中 ， 可 以 得 知 二 元 聚 类 使 用 了 两 个 成 分 ，x 轴 和 y 轴 涵盖 了 85.01% 的 数据 点 ， 数 据点 根据 成 分 1 和 成 分 2 的 取 值 散落 在 
图 中 ， 同 一 禾 内 的 数据 点 采用 相同 颜色 和 形状 绘制 。 


除了 将 4 个 复 绘 制 在 一 个 图 中 ， 读 者 还 可 以 调用 rect 冰 数 来 增加 一 个 和 矩形 框 对 给 定 x 轴 和 y 轴 内 的 篮 进 行 特别 标注 ， 然 后 再 调用 clusplot 阔 数 ， 设 置 好 xlim 和 ylim 参 数 的 值 ， 将 被 选中 的 簇 放 大 显示 以 便 更 
好 地 观察 篮 内 数据 点 的 特征 。 


4 扩展 


clusplot 函 数 使 用 了 princomp 和 cmdscale 两 个 浮 数 来 进行 降 维 操作 得 到 主 成 分 ， 因 此 我 们 能 够 观察 到 数据 是 如 何 基 于 x 轴 和 y 轴 两 个 成 分 实现 聚 徐 操 作 的。 如 果 读 者 希望 了 解 更 多 有 关 princomp 遂 数 和 
cmdscale 函 数 的 信息 ， 可 以 使 用 help 函 数 参考 相关 文档 : 


> help(cmdscale) 
> help(princomp) 


如 果 读 者 对 如 何 调用 cmdscale 函 数 实 现 降 维 操作 感 兴 趣 ， 可 以 执行 以 下 操作 : 


> mds = cmdscale(dist(customer), k = 2) 
> plot (mds, col = fit$cluster) 





降 维 后 的 数据 散 点 图 


在 使 用 不 同 聚 类 算法 完成 数据 聚 类 操作 后 ， 读 者 也 许 还 希望 对 这 些 算法 的 性 能 进行 评估 。 绝 大 多 数 情况 下 ， 我 们 既 可 以 使 用 簇 内 距离 也 可 以 使 用 簇 间距 离 作 为 评判 标准 ， 接 下 来 ， 我 们 将 介绍 如 何 使 用 
fpc 算 法 包 的 cluster.stat 函 数 来 比较 不 同 聚 类 算法 的 性 能 。 


1. 准 备 
为 完成 本 节 的 相关 操作 ， 读 者 需要 准备 好 前 述 章节 提 及 的 customer 数 据 集 。 
2. 操 作 
执行 以 下 操作 以 比较 不 同 聚 类 算法 的 性 能 : 
1) 安装 和 导入 fpc 包 : 
> install.packages ("fpc") 
> library (fpc) 
2) 选择 层次 聚 类 算法 ， 距 离 计算 采用 single 方 法 (最 短 距离 法 ) ， 将 得 到 的 簇 存放 在 hc_single 对 象 中 : 


> single c = hclust(dist(customer), method-"single") 


> hc single = cutree(single c, k = 4) 


3) 选择 层次 聚 类 算法 ， 距 离 计 算 采 用 complete 方 法 (最 长 距离 法 ) ， 将 得 到 的 簇 存 放 在 hc_complete 对 象 中 : 


> complete c = hclust(dist(customer), method-"complete") 
> hc complete = cutree (complete c, k = 4) 


4) 选择 k 均 值 聚 类 算法 ， 将 得 到 的 簇 存放 在 km 对 象 中 : 


> set.seed(22) 
> km = kmeans (customer, 4) 


5) 获得 每 一 个 聚 类 算法 聚 类 结果 的 基本 统计 信息 : 
> cs = cluster.stats (dist (customer), km$cluster) 
6) 通常 我 们 习惯 使 用 within.cluster.ss 和 avg.silwidth 这 两 个 函数 来 验证 聚 类 算法 : 


> cs[c("within.cluster.ss","avg.silwidth")] 
$within.cluster.ss 
[1] 61.3489 


$avg.silwidth 
[1] 0.4640587 


7) 得 到 采用 不 同方 法 生成 的 聚 类 结果 的 统计 信息 并 以 列表 显示 : 
> sapply (list (kmeans = km$cluster, hc single = hc single, hc 


complete = hc complete), function(c) cluster.stats(dist(customer), 
c) [c("within.cluster.ss","avg.silwidth")]) 


kmeans hc single hc complete 
within.cluster.ss 61.3489 136.0092 65.94076 
avg.silwidth 0.4640587 0.2481926 0.4255961 


3. 原 理 


本 节 对 如 何 验证 聚 类 效果 进行 了 实验 ， 聚 类 结果 的 验证 通常 采用 两 种 技术 : 簇 内 距离 和 艇 间距 离 。 在 这 些 方法 中 ， 艇 间距 离 越 大 ， 聚 类 效果 越 好 ， 而 簇 内 距离 越 小 ， 聚 类 结果 也 越 理 想 。 我 们 使 用 了 fpc 
包 中 的 cluster.stat 函 数 来 计算 训练 好 的 聚 类 对 象 的 相关 统计 信息 。 


从 输出 结果 可 以 得 知 ，within.cluster.ss 计 算 的 是 每 个 聚 类 内 部 的 距离 平方 和 ， 而 avg.silwidth 计 算 的 是 平均 轮廓 值 。within.cluster.ss 的 计算 结果 体现 了 同一 个 篮 之 间 对 象 的 相关 程度 ， 该 值 越 小 ， 复 内 
对 象 相 关 性 越 大 ;而 avg.silwidth 值 则 同时 考虑 了 艇 内 对 象 的 聚合 度 和 艇 间 对 象 的 分 离 度 。 数 学 上 对 于 每 个 点 x 可 以 采用 下 列 公式 计算 其 轮廓 系数 : 


max(|b(x),a(x)|) 


在 上 述 公式 中 ，a (X) 是 点 x 到 所 有 与 它 在 同一 个 簇 中 的 其 他 点 的 平均 距离 ， 而 b (x) 则 是 点 x 到 所 有 与 它 不 在 同一 个 艇 的 点 的 平均 距离 的 最 小 值 。 通 常 轮廓 系数 的 取 值 范围 为 0~1， 越 接近 于 1 说 明 聚 类 
效果 越 好 。 


轮廓 系数 (x) = 


从 最 后 产生 的 结果 统计 表 可 知 ， 在 within、cluster.ss 和 avg.silwidth 测 度 下 基于 最 长 距离 的 层次 聚 类 算法 的 聚 类 效果 要 优 于 最 短 距 离 层次 聚 类 算法 和 kk 均值 算法 。 
4 扩展 


读者 也 可 以 调用 kmeans 函 数 来 输出 聚 类 结果 的 统计 信息 (如 withinss 和 betweenss) ， 以 方便 用 户 验证 聚 类 算法 性 能 。 


> Set.seed(22) 

> km = kmeans(customer, 4) 

> km$withinss 

[1] 5.90040 11.97454 22.58236 20.89159 
> km$betweenss 

LLI 174.6511 


9.7 ”从 禾 中 抽取 轮廓 信息 


簇 的 轮廓 信息 对 验证 聚 类 效果 非常 有 用 。 前 一 节 已 经 对 聚 类 效果 的 评估 指标 进行 了 说 明 ， 聚 类 效果 的 好 坏 同 时 取决 于 簇 内 对 象 的 相似 性 以 及 簇 间 对 象 的 相 异 性 。 轮 廓 系数 能 够 同时 对 簇 内 距离 和 艇 间距 
离 进行 考量 ， 其 取 值 范围 为 0~1， 轮 廓 系数 的 值 越 接近 1， 说 明 聚 类 效果 越 好 。 本 节 将 探讨 如 何 计算 轮廓 系数 。 


1. 准 备 

为 完成 对 聚 类 的 轮廓 信息 的 抽取 ， 读 者 需要 准备 好 前 述 章 节 提 及 的 customer 数 据 集 。 
2. 操 作 

执行 以 下 操作 以 计算 轮廓 系数 : 

1) 调用 kmeans 国 数 生成 一 个 k 均 值 聚 类 对 象 km : 


> set.seed(22) 
> km = kmeans(customer, 4) 


2) 计算 聚 类 对 象 的 轮廓 系数 : 


> kms = silhouette(km$cluster,dist(customer)) 


> summary (kms) 
Silhouette of 60 units in 4 clusters from silhouette.default(x - 
km$cluster, dist = dist(customer)) : 
Cluster sizes and average silhouette widths: 
8 11 16 25 
0.5464597 0.4080823 0.3794910 0.5164434 


Individual silhouette widths: 
Min. 1st Qu. M Median Mean 3rd Qu. Max. 
0.1931 0.4030 0.4890 0.4641 0.5422 0.6333 


3) 绘制 轮廓 信息 图 : 


> plot (kms) 


Silhouette plot of (x  kmScluster, dist = dist(customer)) 
4 clusters C, 
j: Ni|aveiec Si 


n- 60 


1: 30 | 0.40 
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3: 10 | 0.30 
I————— 4: [|0.41 
FF. 4 —  -4d- 可 
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Silhouette width s, 














Average silhouette width : 0.35 


k 均 值 聚 类 对 象 的 轮廓 信息 


3. 原 理 

本 节 展 示 了 如 何 使 用 轮廓 系数 图 来 比较 聚 类 算法 的 效果 ， 读 者 可 以 首先 获取 聚 类 对 象 轮廓 信息 ， 包 括 聚 类 大 小 、 平 均 轮廓 值 以 及 单个 对 象 的 轮廓 值 。 轮 廓 系数 的 取 值 范围 为 0~1， 越 靠近 1， 说 明 聚 类 的 
质量 越 好 。 

最 后 ， 我 们 调用 了 plot 函 数 来 绘制 轮廓 图 ， 左 边 为 水 平 线段 的 个 数 ， 即 复 的 个 数 。 右 边 列 为 当前 篮 的 平均 相似 度 与 邻近 聚 篮 平 均 相似 度 的 差 值 ， 图 的 底部 显示 了 平均 轮廓 宽度 值 。 
4 扩展 


如 果 读 者 对 于 轮廓 系数 的 计算 方法 感 兴 趣 ， 可 以 参考 Wikipedia 的 轮廓 值 词 条 : http://en.wikipedia.org/wiki/Silhouette ?628clustering?629, 


9.8 ”获得 优化 的 k 均 值 聚 类 


k 均 值 算法 效率 快 也 易于 实现 ， 但 在 算法 开始 前 要 求 提 前 规定 好 簇 k 的 数目 ， 因 此 我 们 可 以 使 用 距离 的 平方 和 来 确定 哪个 k 值 能 够 得 到 最 好 的 k 均 值 聚 类 效果 。 本 节 将 探讨 如 何 找到 对 K 均 值 算法 最 合适 的 


1. 准 备 
为 了 找到 最 优 的 艇 个 数 ， 读 者 需要 准备 好 前 述 章节 提 及 的 customer 数 据 集 。 
2. 操 作 
执行 以 下 操作 为 k 均 值 算法 找到 最 合适 的 聚 类 个 数 。 
1) 首先 ， 计 算 每 个 篮 的 距离 平方 和 (withinss) : 
nk = 2:10 
set.seed(22) 


WSS - sapply(nk, function(k) ( 
kmeans (customer, centers-k)S$tot.withinss 


t T V V V 


p 
> WSS 
[1] 123.49224 88.07028 61.34890 48.76431 47.20813 


[6] #5:48B114 29:5801% 28.897519 23.21331 


2) 调用 plot 绘 制 不 同 k 值 下 距离 平方 和 的 线 图 : 


> plot(nk, WSS, type="1", xlab- "number of k", ylab="within sum of 
squares") 
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不 同 k 值 的 平方 和 线 图 


3) 计算 不 同 聚 类 结果 的 平均 轮廓 值 (avg.silwidth) : 


> SW = sapply(nk, function(k) ( 


十 cluster.stats (dist (customer), kmeans (customer, 
centers-k)$cluster)$avg.silwidth 


+ }) 

> SW 

[1] 0.4203896 0.4278904 0.4640587 0.4308448 0.3481157 
[6] 0.3320245 0.4396910 0.3417403 0.4070539 


4) 使 用 线 图 绘制 不 同 K 值 的 平均 轮廓 值 : 


> plot (nk, SW, type-"l", xlab-"number of clusers", ylab-"average 
silhouette width") 
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不 同 k 值 的 平均 轮廓 值 线 图 


5) 得 到 最 大 的 簇 个 数 : 


> nk[which.max (SW)] 
[1] 4 


3. 原 理 

本 节 通 过 和 迭代 生成 篮 的 距离 平方 和 以 及 平均 轮廓 值 来 寻找 最 优 的 篮 个 数值 。 其 中 ， 距 离 平方 和 越 小 ， 聚 篮 效 果 越 佳 ， 通 过 绘制 不 同 k 值 下 簇 距 离 平方 和 图 ， 可 以 得 到 最 适合 样 例 的 k 值 为 4。 我 们 同时 还 
使 用 了 cluster.stats 函 数 来 计算 不 同 聚 类 结果 的 平均 轮廓 值 图 ， 并 绘制 了 相应 的 线 图 ， 从 步骤 4) 的 结果 图 可 以 发 现 当 k=4 时 ,平均 轮廓 值 最 大 。 除 此 之 外 ,我们 也 可 以 利用 which.max 函 数 来 得 到 最 大 平均 
轮廓 值 所 对 应 的 k 值 。 
4. 扩 展 


对 距离 平方 和 计算 方法 感 兴趣 的 读者 ， 可 以 参阅 Wikipedia 的 相关 文档 : http://en.wikipedia.org/wiki/K-means clustering, 


9.9 ”使 用 密度 聚 类 方法 处 理 数据 

除了 使 用 距离 作为 聚 类 指标 ， 我 们 还 可 以 使 用 密度 指标 来 对 数据 进行 聚 类 处 理 ， 将 分 布 稠密 的 样本 与 分 布 稀 足 的 样本 分 离开 。DBSCAN 是 最 著名 的 密度 聚 类 算法 ， 本 节 将 探讨 如 何 使 用 DBSCAN 来 完成 
基于 密度 的 聚 类 算法 。 
1. 准 备 

本 节 将 使 用 mlbench 包 提供 的 仿真 数据 。 


2. 操 作 


执行 以 下 操作 ， 完 成 基于 密度 的 聚 类 分 析 : 


1) 安装 和 导入 fpc 和 mlbench 包 : 


install.packages ("mlbench") 
library (mlbench) 
install.packages("fpc") 
library(fpc) 


V MV V V 


2) 使 用 mlbench 库 绘制 Cassini 问 题 图 : 


> set.seed (2) 
> p = mlbench.cassini(500) 


» plot(p$x) 


p3x[,1] 





Cassini 问 题 图 
3) 根据 数据 密度 完成 聚 类 : 


> ds = dbscan(dist(p$x),0.2, 2, countmodezNULL, method-"dist") 


> ds 

dbscan Pts=500 MinPts-2 eps-0.2 
1 2 3 

seed 200 200 100 

total 200 200 100 


4) 绘制 聚 类 结果 的 散 点 图 ， 属 于 不 同 簇 的 数据 点 选用 不 同 的 颜色 : 


> plot (ds, p$x) 


datal,1| 





根据 聚 答 标号 绘制 的 彩色 散 点 图 


5) 调用 dbscan 来 预测 数据 点 可 能 被 划分 到 哪个 徐 ， 在 样 例 中 ， 首 先 在 和 矩 阵 p 中 处 理 三 个 输入 值 : 


> y = matrix(0,nrow=3,ncol=2) 
> y[1,] = c(0,0) 
> yia] »c(0,-1.5) 
» yI3,] s» c(1,1) 
eq 
[,1] [,2] 
[1,] 0 0.0 
[2,] 0 -1.5 
[3,] l 21.0 


6) 预测 数据 点 属于 哪个 簇 : 


> predict(ds, p$x, y) 
LI N. 


3. 原 理 


基于 密度 的 聚 类 算法 利用 了 密度 可 达 以 及 密度 相连 的 特点 ， 因 而 适用 于 处 理 非 线性 聚 类 问题 。 当 探讨 密度 聚 类 算法 的 处 理 过 程 之 前 ， 我 们 有 必要 先 掌握 一 些 重要 的 背景 知识 。 基 于 密度 的 聚 类 算法 通常 


需要 考虑 两 个 参数 : eps 和 MinPts， 其 中 eps 为 最 大 领域 半径 ，MinPts 则 为 在 邻 域 半径 范围 内 的 最 小 点 数 。 确 定好 这 两 个 参数 的 值 后 ， 如 果 给 定 对 象 其 邻 域 半径 范围 内 的 样本 点 个 数 大 于 MinPts， 则 称 该 对 
象 为 核心 点 ， 如 果 一 个 对 象 其 邻 域 半径 范围 内 的 样本 点 个 数 小 于 MinPts， 但 紧 挨 着 核心 点 ， 则 称 该 对 象 为 边缘 点 ;如果 p 对 象 的 eps 人 $B 域 范围 内 的 样本 点 个 数 大 于 MinPts， 则 称 该 对 象 为 核心 对 象 。 


进一步 地 ， 我 们 还 需要 定义 两 点 间 密 度 可 达 的 概念 ， 给 定 两 点 p 和 qdq， 如 果 p 为 核心 对 象 ， 且 q 在 p 的 eps 邻 域 范 围 内 ， 则 称 p 直 接 密度 可 达 q; 如 果 存 在 一 系列 的 点 ，p1，Pp2， 
据 Eps 和 Minpts 的 值 ， 当 1<i<n 时 ，Ppi+1 直 接 密度 可 达 pi， 则 称 p 一 般 且 密度 可 达 d。 


…，pn 且 p1=q，pn=p， 根 





有 了 基于 密度 聚 类 的 初步 概念 ， 我 们 就 可 以 解释 应 用 最 广 的 密度 聚 类 算法 DBSCAN 的 处 理 过 程 ， 如 下 所 示 : 

1) 随机 选择 一 个 点 p。 

2) 在 给 定 Eps 和 MinPts 值 的 条 件 下 ， 获 得 所 有 p 密 度 可 达 的 点 。 

3) 如 果 p 是 核心 对 象 ， 则 p 和 所 有 p 密 度 可 达 的 点 被 标记 为 一 个 艇 ; 如 果 p 是 一 个 边缘 点 ， 找 不 到 密度 可 达 点 ， 则 将 其 标记 为 噪声 ， 接 着 处 理 其 他 点 。 
4) 重复 该 过 程 ， 直 到 所 有 点 都 被 处 理 完 。 


本 节 探 讨 了 如 何 使 用 基于 密度 聚 类 的 DBSCAN 算 法 完成 customer 数 据 集 的 聚 禾 。 首 先 ， 我 们 需要 安装 和 导入 mlbench 和 fpc 两 个 库 ，mlbench 库 提供 不 同形 状 和 大 小 的 仿真 数据 集 ， 在 样 例 中 ,我 们 生 
成 了 一 个 Cassini 问 题 图 。 


接 下 来 ， 使 用 dbscan 算 法 聚 类 Cassini 数 据 集 ， 将 可 达 距 离 设置 为 0.2， 最 小 可 达 点 个 数 设 置 为 2， 计 算 进 度 设 为 null， 使 用 距离 矩 阵 作为 计算 依据 。 从 结果 可 知 ， 经 过 算法 处 理 ， 数 据 被 划分 成 三 个 禾 ， 
每 个 篮 的 大 小 分 别 为 200、200 和 100。 通 过 聚 复 结果 的 示意 图 也 可 以 发 现 Cassini 图 被 不 同 颜色 区 分 开 来 。 


在 fpc 包 中 也 提供 了 predict 函 数 ， 读 者 能 够 使 用 该 函数 来 预测 输入 矩阵 中 数据 篮 的 类 标号 ， 点 C (0, 0) 被 分 到 艇 3， 点 C (0, 1.5) 被 分 到 艇 1， 点 C (1，1) 被 分 到 簇 2。 
4 扩展 


fpc 包 对 聚 类 的 处 理 过 程 非常 灵活 ， 也 拥有 非常 实用 的 聚 类 分 析 函 数 ， 读 者 可 以 调用 plotcluster 函 数 生 成 一 个 判别 投影 图 ， 更 多 相关 信息 请 参考 以 下 文档 : 


> help(plotcluster) 


9.10 ”使 用 基于 模型 的 聚 类 万 法 处 理 数 据 


与 使 用 启发 式 方 法 而 非 依赖 某 个 形式 化 模型 的 层次 聚 类 和 Kk 均值 聚 类 方法 不 同 ， 基 于 模型 的 聚 类 算法 假设 存在 多 种 数据 模型 ， 并 使 用 EM 算法 来 判断 可 能 性 最 大 的 数据 模型 作为 对 数据 进行 聚 簇 处 理 的 依 
据 。 本 节 将 探讨 如 何 使 用 基于 模型 的 聚 簇 方法 来 判断 最 可 能 的 数据 聚 簇 结 


1. 准 备 
为 了 使 用 基于 模型 的 聚 类 算法 来 处 理 customer 数 据 ， 读 者 需要 准备 好 customer 数 据 集 。 


2. 操 作 


执行 以 下 操作 ， 以 完成 基于 模型 的 聚 类 : 


1) 安装 和 导入 mclust 库 : 


> install.packages("mclust") 
> library (mclust) 


2) 对 customer 数 据 集 使 用 基于 模型 的 聚 类 : 


> mb = Mclust (customer) 
> plot (mb) 


3) 选择 “1” 得 到 不 同 成 分 的 BIC 值 : 


4 6 


Number of components 





不 同 成 分 BIC 示 意图 


4) 选择 “2”， 显 示 根据 不 同 特征 组 合 的 分 类 结果 : 





不 同 特征 组 合 得 到 的 分 类 示意 图 


5) 选择 “3”， 显 示 根据 不 同 特征 组 合 的 分 类 不 确定 性 : 


-10 -05 00 





不 同 特征 组 合 得 到 的 分 类 不 确定 性 


6) 接 下 来 ， 选 择 “4” 显示 密度 估计 值 : 
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密度 估计 值 图 
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7) 接 下 来 ,选择 “0”， 绘 制 密度 图 退出 绘画 菜单 。 


8) 最 后 ， 使 用 ummary 函 数 获得 似 然 性 最 大 的 模型 以 及 聚 艇 的 个 数 : 


> summary (mb) 


Mclust VII (spherical, varying volume) model with 5 components: 


log.likelihood n df BIC ICL 
-218.6891 60 29 -556.1142 -557.2812 


Clustering table: 
1 2 3 4 5 
11 8 17 14 10 


3. 原 理 


基于 模型 的 聚 类 算法 没有 采用 启发 式 方 法 来 构建 艇 ， 而 是 采用 了 基于 概率 的 方法 ， 算 法 假设 样 例 数据 分 布 服从 某 个 未 知 的 概率 分 布 ， 并 试图 从 数据 中 找 出 这 个 分 布 。 有 限 混合 模型 是 一 类 常见 基于 模型 
的 方法 ， 单 个 模型 被 分 配 一 个 线性 权重 再 组 合 得 到 结果 模型 ， 因 而 有 限 混合 模型 能 够 提供 一 个 灵活 的 模型 框架 来 解释 数据 分 布 概率 。 假 设 数据 
y= (y1, y2, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15677/OEBPS/Text/..., yag) 包含 n 个 独立 多 元 观测 值 ; G 是 模型 成 分 的 个 数 ， 有 


限 混合 模型 的 似 然 函数 公式 可 以 定义 如 下 : 


n 


Lyx (0,.---0; | y) - LES (X, | 0,) 
k=l 


i- 


其 中 ，fk 和 6k 是 混合 模型 中 第 k 个 模型 的 密度 和 参数 ，"…*""Z 是 观测 样本 属于 第 k 个 模型 的 概率 。 


基于 模型 的 聚 类 算法 处 理 过 程 可 分 成 以 下 几 个 步骤 : 首先 ， 算 法 确定 好 模型 的 数量 以 及 概率 分 布 类 型 ， 然 后 ， 构 建 一 个 有 限 混合 模型 并 计算 每 个 模型 类 别 的 后 验 概 率 ， 最 后 ， 将 样本 观测 值 分 配 到 概率 
最 大 的 类 别 中 。 


本 节 展 示 了 如 何 使 用 基于 模型 的 聚 类 算法 完成 数据 的 划分 ， 我 们 首先 需要 人 在 R 环 境 中 安装 和 导入 Mclust 库 ， 然 后 调用 Mclust 函 数 来 处 理 样 本 customer 数 据 集 。 


当 数 据 处 理 完毕 后 ， 我 们 基于 聚 类 结果 绘制 模型 图 ， 有 4 张 不 同 的 图 ， 分 别 是 BIC、 分 类 结果 、 分 类 不 确定 性 以 及 聚 篮 密 度 值 图 。 由 BIC 图 我 们 可 知 模型 的 BIC 值 ， 通 过 这 个 值 我 们 可 以 选择 复 的 个 数 。 分 
类 结果 示意 图 和 分 类 不 确定 性 示意 图 则 分 别 展示 了 根据 不 同 的 维度 组 合 所 得 到 的 簇 结果 和 分 类 不 确定 性 ， 密 度 值 图 显示 了 密度 估计 值 的 等 高 线 图 。 


读者 也 可 以 通过 调用 summary 函 数 来 获得 似 然 值 最 大 的 模型 以 及 最 合适 的 簇 个 数 ， 本 节 样 例 数据 集 的 簇 个 数 为 5$，BIC 值 为 -556.1142。 
4. 扩 展 


如 果 读 者 对 Mclust 库 的 工作 机 制 感 兴趣 ， 请 参考 以 下 来 源 : 


C.Fraley, A.E.Raftery, T.B.Murphy and L.Scrucca (2012) .mclust Version 4for R: Normal Mixture Modeling for Model-Based Clustering, Classification, and Density 


Estimation.Technical Report No.597, Department of Statistics, University of Washington, 


9.11  fHEHESEBPERRITU, 


TAABRI RFRA, Soll JE AS BOLA TBUEBESAR ERA EPKSERRABERESABEERRURIHUA, EA, BRER (相似 性 高 ) 的 点 采用 深 色 绘 制 ， 这 样 有 助 于 判别 数据 中 隐藏 的 结构 。 本 节 
将 讨论 一 些 有 用 的 绘制 相 异 度 矩 阵 的 技术 。 
1. 准 备 

为 了 完成 相 异 度 矩 阵 的 可 视 化 ， 读 者 需要 准备 好 前 述 章 节 提 及 的 customer 数 据 集 ， 以 及 一 个 k 均 值 模型 对 象 ， 将 该 对 象 存放 在 变量 km 中 。 
2. 操 作 

执行 以 下 操作 ， 完 成 相 异 度 矩 阵 的 可 视 化 : 

1) 安装 和 导入 seriation 包 : 


> install.packages("seriation") 


> library(seriation) 
2) 调用 dissplot 浮 数 绘制 相 异 度 和 矩 阵 的 热力 图 : 


> dissplot(dist(customer), labels-km$cluster, 
options-list(main-"Kmeans Clustering With k-4")) 


Kmeans Clustering With k=4 
1 2 3 4 





k32 48 7E 4 869 T8 9 RE AE ES 
3) 接 下 来 ， 使 用 dissplot 浮 数 绘制 层次 聚 类 结果 的 热力 图 : 
> complete c = hclust(dist(customer), method="complete") 


> hc complete = cutree(complete c, k = 4) 


> dissplot(dist(customer), labels=hc complete, 
options=list (main="Hierarchical Clustering")) 


Hierarchical Clustering 





层次 聚 类 的 相 异 度 矩 阵 示意 图 


3. 原 理 


本 节 使 用 相 异 度 图 来 绘制 相 异 度 矩 阵 ， 我 们 首先 要 安装 和 导入 seriation 包 ， 然 后 调用 dissplot 函 数 绘制 k 均 值 聚 类 的 输出 ， 得 到 步骤 2) 所 示 的 结果 图 。 从 图 中 可 知 ， 每 个 簇 间 相似 的 部 分 会 采用 深 颜色 
的 区 域 表 示 ， 因 此 对 角 线 上 的 徐 (例如 艇 4 到 徐 4) 相似 性 最 大 ， 是 用 深 色 区 域 表 示 ; 而 远离 对 角 线 的 簇 相 异性 最 大 ， 因 而 采用 浅 色 区 域 表示 。 


类 似 地 ， 我 们 也 可 以 使 用 dissplot 遂 数 绘制 层次 聚 类 结果 ， 如 步骤 3) 的 结果 图 所 示 ， 在 一 张 热力 图 上 可 以 展示 不 同 簇 间 的 相似 性 。 


4. 扩 展 


除了 使 用 dissplot 绘 制 相 异 度 和 矩阵 ， 读 者 还 可 以 调用 dist 和 image 函 数 完成 距离 矩阵 的 可 视 化 ， 在 如 下 所 示 的 结果 图 中 ， 联 系 紧 密 的 样 例 都 采用 了 红色 表示 ， 而 联系 不 那么 紧密 的 样 例 的 颜色 接近 白色 。 


> image(as.matrix(dist(customer))) 
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customet 数 据 集 的 距离 矩阵 示意 图 


读者 也 可 以 调用 heatmap 函 数 ， 为 了 同时 使 用 树 状 图 和 热力 图 来 展示 数据 的 聚 类 情况 : 


cd=dist (customer) 

hc-hclust (cd) 

cdt=dist (t (customer) ) 

hcc-hclust(cdt) 

heatmap (customer, Rowv-as.dendrogram(hc), Colv-as.dendrogram(hcc)) 
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热力 树 状 图 示意 


912 ”使 用 外 部 验证 评估 聚 类 交 


除了 通过 统计 结果 来 评估 聚 类 的 质量 ， 我 们 还 可 以 将 已 知 的 簇 作为 一 个 标准 来 评估 不 同 聚 类 算法 的 性 能 。 本 节 将 展示 如 何 利用 已 知 簇 来 比较 不 同 聚 类 算法 的 差别 。 
1. 准 备 

本 节 将 继续 使 用 手写 数字 作为 聚 类 算法 的 输入 ， 读 者 可 以 在 作者 的 Github 主 页 上 下 载 该 数据 集 : https;//github.com/ywchiu/ml R cookbook/tree/master/CH9, 
2. 操 作 

执行 以 下 操作 ， 使 用 不 同 聚 类 算法 完成 数字 的 聚 类 : 


1) 安装 和 导入 png 包 : 


> install.packages ("png") 
» library(png) 


2) 从 handwriting.png 中 导入 图 片 ， 并 将 其 转换 成 散 点 图 形式 : 


> img2 readPNG ("handwriting.png", TRUE) 


img2 [, nrow (img2):1] 


> img3 
> b = cbind(as.integer(which(img3 < -1) %% 28), which (img3 < -1) / 
28) 

» plot(b, xlimsc(1,28), ylimsc(1,28)) 
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3) 采用 k 均 值 聚 类 方法 处 理 手 写 数字 数据 集 : 


set.seed (18) 

fit = kmeans (b, 2) 

plot (b, col=fit$cluster) 

plot(b, colsfit$cluster,  xlimsc(1,28), ylimsc(1,28)) 
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4) 接 下 来 ， 采 用 dbscan 聚 类 算法 处 理 手 写 数字 数据 集 : 


> ds = dbscan(b, 2) 
» ds 





对 手写 数字 数据 集 的 k 均 值 聚 类 处 理 结 


dbscan Pts-212 MinPts-5 eps-2 


1 2 
seed 75 137 
totasi 75 1317 


= plot(ds, b, xlimzc(1,28), ylimzc(1,28)) 
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3. 原 理 


本 节 展示 了 不 同 聚 类 算法 对 手写 数字 数据 集 的 聚 类 结果 比较 ， 聚 类 的 目标 
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data[, 1] 


对 手写 数字 数据 集 的 dbscan 聚 类 处 理 结 


够 将 数字 1 和 7 分 到 不 同 的 艇 中 。 我 们 分 别 采 用 了 Kk 均值 和 DBSCAN 这 两 种 不 同 的 聚 类 方法 来 观察 数据 的 聚 类 结果 。 


我 们 通过 调用 Windows 应 用 程序 paint.exe 来 生成 一 个 28x28 像 素 的 PNG 文 件 以 得 到 样本 数据 ， 然 后 借助 readPNG 函 数 将 这 个 PNG 文 件 读 入 并 转换 成 散 点 图 ， 得 到 如 图 所 示 的 数字 17。 


去 来 处 理 手写 数字 数据 集 ， 首 先 使 用 的 是 k 均 值 聚 类 ， 其 中 K 值 被 设 为 2， 由 于 k 均 值 采 用 距离 测量 ， 构 建 的 聚 类 学 围 同时 覆盖 了 1 和 7。 我 们 又 使 用 了 DBSCAN 算 法 对 同 


~ 
~ 


完成 数据 读 入 后 ， 我 们 采用 聚 类 算 ; 
一 数据 集 进行 处 理 ， 由 于 DBSCAN 采 用 了 基于 密度 的 聚 类 方法 ， 所 以 成 功 地 区 分 了 1 和 7。 


4 扩展 
如 果 读 者 对 怎样 将 不 同 格式 的 图 形 读 入 R 中 感 兴趣 ， 可 以 参考 以 下 文档 : 


^N 


> help(package-"png") 


第 10 章 ”天 联 分 析 和 序列 挖掘 


“顾客 经 常 一 起 采购 的 是 哪些 商品 ”” 或 者 “ 当 顾 客 买 了 


企业 在 日 常 业务 处 理 过 程 中 积累 了 大 量 的 交易 数据 (如 零售 商 的 订单 、 发 票 以 及 运输 文档 ) ， 在 这 些 数 据 中 隐藏 着 一 些 有 用 关联 信息 ， 类 似 ， 
一 部 电话 后 还 会 再 买 什么 ? ”为 了 能 够 找到 以 上 两 个 问题 的 答案 ， 我 们 需要 在 交易 数据 集 上 进行 关联 分 析 和 频繁 序列 模式 挖掘 。 
“ 买 尿布 的 顾客 会 再 去 买 啤酒 ”就 是 存在 在 商品 间 的 非常 著名 的 一 种 关联 。 尽 管 这 种 关联 听 起 来 有 些 不 可 思议 ， 但 如 果 零 售 商 们 能 够 利用 这 类 信息 


关联 分 析 是 发 现 交 易 数据 集 内 有 趣 联系 的 一 种 方法 ， 
或 规则 为 顾客 提供 交叉 销售 的 商品 ， 则 很 有 可 能 提高 他 们 的 销售 额 。 
关联 分 析 被 用 于 寻找 项 集 之 间 的 关系 ,但 假如 人 们 希望 找到 那些 经 常 被 一 起 购买 的 商品 序列 又 该 怎么 办 呢 ? 为 了 完成 这 个 任务 ,我 们 可 以 采用 频繁 序列 模式 挖掘 来 找到 拥有 序列 信息 的 交易 数据 集中 的 
我 们 将 生成 带 时 态 信息 的 交易 数据 ， 并 使 用 


频繁 子 序 列 。 然 后 再 利用 挖掘 得 到 的 频繁 子 序列 来 预测 顾客 的 购买 行为 序列 、Web 单 击 流 、 生 物 序列 以 及 其 他 应 用 。 
本 章 探讨 的 内 容 包括 : 生成 和 检查 交易 数据 集 ， 基 于 Apriori 算 法 进行 关联 分 析 ， 采 用 多 种 图 形 展示 天 联 分 析 结 果 以 及 使 用 Eclat 算 法 挖掘 频繁 项 集 。 最 后 


CSPADE 方 法 来 发 现 频繁 序列 模式 。 


第 10 草 ”关联 分 析 和 序列 挖掘 


10.1 简介 

企业 在 日 常 业务 处 理 过 程 中 积累 了 大 量 的 交易 数据 (如 零售 商 的 订单 、 发 票 以 及 运输 文档 ) ， 在 这 些 数据 中 隐藏 着 一 些 有 用 关联 信息 ， 类 似 ，“ 顾 客 经 常 一 起 采购 的 是 哪些 商品 ? ”或 者 “ 当 顾 客 买 了 
一 部 电话 后 还 会 再 买 什么 ? ”为 了 能 够 找到 以 上 两 个 问题 的 答案 ， 我 们 需要 在 交易 数据 集 上 进行 关联 分 析 和 频繁 序列 模式 挖掘 。 

关联 分 析 是 发 现 交 易 数据 集 内 有 趣 联系 的 一 种 方法 ，“ 买 尿布 的 顾客 会 再 去 买 啤酒 ”就 是 存在 在 商品 间 的 非常 著名 的 一 种 关联 。 尽 管 这 种 关联 听 起 来 有 些 不 可 思议 ， 但 如 果 零 售 商 们 能 够 利用 这 类 信息 


能 提高 他 们 的 销售 额 。 
关联 分 析 被 用 于 寻找 项 集 之 间 的 关系 ， 但 假如 人 们 希望 找到 那些 经 常 被 一 起 购买 的 商品 序列 又 该 怎么 办 呢 ? 为 了 完成 这 个 任务 ,我 们 可 以 采用 频繁 序列 模式 挖掘 来 找到 拥有 序列 信息 的 交易 数据 集中 的 


或 规则 为 顾客 提供 交叉 销售 的 商品 ， 则 很 有 可 
页 繁 子 序列 。 然 后 再 利用 挖掘 得 到 的 频繁 子 序列 来 预测 顾客 的 购买 行为 序列 、Web 单 击 流 、 生 物 序 列 以 及 其 他 应 用 。 
二 最 后 ， 我 们 将 生成 带 时 态 信 息 的 交易 数据 ， 并 使 用 


本 章 探讨 的 内 容 包 括 : 生成 和 检查 交易 数据 集 ， 基 于 Apriori 算 法 进行 关联 分 析 ， 采 用 多 种 图 形 展示 关联 分 析 结 果 以 及 使 用 Eclat 算 法 挖掘 频繁 项 集 


cSPADE 方 法 来 发 现 频繁 序列 模式 。 


10.2 ”将 数据 转换 成 事务 数据 


在 进行 关联 规则 挖掘 之 前 ， 我 们 需要 首先 将 数据 转换 成 事务 数据 。 本 节 将 介绍 如 何 将 链表 、 和 矩阵 或 数据 框架 转换 成 事务 数据 。 


1. 准 备 
本 节 将 分 别 生 成 三 个 不 同类 型 的 数据 集 ， 包 括 链表 、 矩 咱 和 数据 框架 ， 然 后 再 将 它们 转化 为 事务 数据 。 


2. 操 作 
执行 以 下 操作 ， 将 不 同 格式 的 数据 转换 为 事务 数据 : 
1) 安装 和 导入 arule 包 : 
> install.packages("arules") 


> library(arules) 


含 三 个 向 量 的 链表 ， 以 存放 购买 记录 : 


2) 创建 一 个 包含 三 人 1 


> tr list = list(c("Apple", "Bread", "Cake"), 
+ c("Apple", "Bread", "Milk"), 

一 c("Bread", "Cake", "Milk")) 

> names(tr list) = paste("Tr",c(1:3), sep = "") 


3) 调用 as 函数 ， 将 链表 转换 成 事务 类 型 : 


> trans = as(tr list, "transactions") 
» trans 
transactions in sparse format with 

3 transactions (rows) and 

4 items (columns) 


4) 将 矩阵 格式 的 数据 转换 成 事务 类 型 : 


tr matrix - matrix( 
etl;i,l;0, 
1 We Be ¢ P: P 
0,1,1,1), ncol w 4) 
dimnames(tr matrix) =  list( 
paste("Tr",c(1:3), sep » ""), 
c("Apple","Bread","Cake", "Milk") 
) 


trans2 =  as(tr matrix, "transactions") 
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trans2 

transactions in sparse format with 
3 transactions (rows) and 

4 items (columns) 


5) 最 后 ， 将 数据 框架 类 型 的 数据 集 转换 成 事务 : 


> Tr dt = data.frame( 

一 Te S e e a A A E P a ek r TETS 

+ Item = as.factor(c("Apple","Milk","Cake","Bread", 
一 "Cake","Milk","Apple","Cake", 
十 "Bread","Bread")) 


> trans3 = as(split(Tr df[,"Item"], Tr df[,"TrID"]), 
"transactions") 


» trans3 

transactions in sparse format with 
3 transactions (rows) and 
4 items (columns) 


3. 原 理 


在 挖掘 频繁 项 集 或 者 是 使 用 关联 规则 之 前 ， 准 备 好 事务 类 型 的 数据 集 非 常 重要 。 本 节 讨论 了 如 何 将 一 个 数据 集 从 链表 、 和 矩阵 和 数据 框 转换 为 事务 。 我 们 首先 生成 了 一 个 包含 三 个 向 量 的 链表 数据 集 ， 存 
放 顾 客 的 购买 记录 ， 然 后 ， 当 我 们 调用 as 函数 给 每 次 事务 都 加 上 一 个 id 就 完成 了 数据 向 事务 的 类 型 转换 。 


接 下 来 ， 我 们 展示 了 如 何 将 矩 阵 格式 的 数据 转换 成 事务 数据 ， 为 了 表示 商品 的 购买 过 程 ， 用 户 应 该 使 用 二 元 关联 矩阵 来 记录 每 次 交易 及 其 所 购买 的 商品 ， 同 样 ， 我 们 可 以 使 用 as 函数 将 和 矩阵 类 型 的 数据 
集 转 换 成 事务 。 


最 后 ， 我 们 还 演示 了 如 何 将 数据 框 类 型 的 数据 转换 成 事务 数据 。 数 据 框 类 型 包括 两 个 因子 型 向 量 ， 一 个 是 名 为 TrID 的 事务 1D， 另 一 个 向 量 (名 为 tem) 存储 当前 事务 中 购买 的 商品 。 转 换 过 程 同样 也 可 
以 通过 调用 as 函数 完成 。 


4 扩展 


R 语 言 使 用 transactions 类 型 来 代表 用 于 规则 或 频繁 项 集 挖 掘 的 事务 型 数据 ， 它 是 itemMiatrix 类 型 的 延伸 ， 如 果 读 者 对 用 两 种 不 同 的 类 表示 事务 数据 感 兴 趣 ， 可 以 调用 help 函 数 来 获得 详细 信息 : 


> help(transactions) 
> help(itemMatrix) 


10.3 ”展示 事务 及 关联 


R 的 arule 包 使 用 自 带 的 transactions 类 型 来 存储 事务 型 数据 ， 因 此 ， 我 们 必须 调用 arule 包 提供 的 一 般 函 数 来 展示 事务 及 其 关联 。 本 节 将 说 明 如 何 使 用 arule 包 提供 的 各 种 函数 来 展示 事务 及 其 关联 规则 。 
1. 准 备 
读者 需要 确保 完成 前 述 小 节 中 提 及 的 操作 ， 并 将 得 到 的 数据 人 存放 在 trans 变 量 中 。 
2 操作 
执行 以 下 操作 来 展示 事务 及 其 关联 : 
1) 获取 事务 数据 的 LIST 表 示 : 
> LIST(trans) 


$Tr1 
[1] "Apple" "Bread" "Cake" 


STZ 
[1] "Apple" "Bread" "Milk" 


STr3 
[1] "Bread" "Cake" "Milk" 


2) WiFBsummaryeRZiéay tix ERAS BELT CHEST : 


> summary (trans) 

transactions as itemMatrix in sparse format with 
3 rows (elements/itemsets/transactions) and 
4 columns (items) and a density of 0.75 


most frequent items: 
Bread Apple Cake Milk (Other) 
3 2 2 2 0 


element (itemset/transaction) length distribution: 


sizes 
3 
3 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
3 3 3 3 3 3 


includes extended item information - examples: 


labels 
1 Apple 
2 Bread 
3 Cake 


includes extended transaction information - examples: 


transactionID 
1 Tri 
2 TE 
3 Tr3j 


3) 调用 inspect 函 数 展 示 事 务 : 


> inspect (trans) 
items transactionID 


1 (Apple, 

Bread, 

Cake) Ted 
2 (Apple, 

Bread, 

Milk) Tr2 
3 (Bread, 

Cake, 

Milk) Tr3 


4) 根据 事务 大 小 进行 筛选 : 


> filter trains = trans[size(trans) »-3] 
» inspect(filter trains) 

items transactionID 
1 (Apple, 

Bread, 

Cake) Trl 
2 (Apple, 

Bread, 

Milk) Tr2 
3 (Bread, 

Cake, 

Milk) Tr3 


5) 调用 image 函 数 可 视 化 检查 事务 数据 : 


> image (trans) 
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对 事务 可 视 化 


6) 调用 itemFrequentPlot 函 数 绘制 频繁 度 /支持 度 条 形 图 : 


> itemFrequencyPlot (trans) 
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事务 的 项 集 频繁 度 条 形 图 
3. 原 理 


交易 数据 是 挖掘 关联 和 频繁 模式 的 基础 ， 我 们 必须 学 会 如 何 展 示 关 联 规则 以 便 深入 了 解 这 些 规 则 及 判断 规则 的 构成 方式 。arules 包 提供 了 多 种 检查 交易 数据 的 方法 ， 我 们 首先 使 用 了 LIST 遂 数 以 链表 形 
式 来 展示 交易 数据 ， 然 后 调用 了 summary 函 数 来 获取 包括 基本 属性 描述 、 最 频繁 项 集 以 及 事务 长 度 分 布 的 信息 。 


接 下 来 ， 我 们 调用 了 inspect 函 数 来 显示 这 些 交易 数据 ， 此 外 ， 读 者 还 可 以 通过 交易 数据 大 小 来 对 数据 进行 第 选 ， 并 使 用 inspect 函 数 显 示 数 据 之 间 的 关联 ， 还 可 以 调用 image 逊 数 对 检查 的 数据 进行 可 
视 化 处 理 。 最 后 ， 我 们 演示 了 如 何 通 过 频繁 度 /支持 度 的 条 形 图 来 显示 各 项 集 之 间 的 相关 项 集 频 度 。 


4. 扩 展 


. 除了 采用 itemFrequencyPlot 函 数 来 绘制 频 度 /支持 度 的 条 形 图 ， 我 们 还 可 以 使 用 itemFrequency 范 数 来 显示 支持 度 的 分 布 情况 。 更 多 相关 细节 ， 请 调用 help 遂 数 来 查看 以 下 文档 : 


> help(itemFrequency) 


10.4 使 用 Apriori 规 则 完成 天 联 挖掘 


关联 挖掘 常 被 用 于 发 现 隐藏 在 事务 数据 集 间 的 一 些 有 意义 的 关联 ， 算 法 首先 找 出 所 有 的 频繁 项 集 ， 然 后 从 这 些 频 繁 项 集中 生成 强 规则 。Apriori 是 最 为 著名 的 关联 规则 挖掘 算法 ， 该 算法 首先 找到 频繁 个 
体 项 集 ， 然 后 再 通过 广度 优先 搜索 策略 生成 更 大 的 频繁 项 集 ， 直 至 算法 最 后 再 也 找 不 到 新 的 频繁 项 集 而 结束 。 本 节 将 展示 如 何 使 用 Apriori 规 则 来 完成 天 联 挖掘 。 
1. 准 备 

本 节 将 使 用 一 个 内 置 的 事务 数据 集 Groceries， 展 示 在 arules 包 中 如 何 使 用 Apriori 算 法 进行 关联 分 析 ， 读 者 要 首先 确保 已 经 安装 和 导入 了 arules 算 法 包 。 
2. 操 作 

执行 以 下 操作 ， 完 成 关联 规则 分 析 : 

1) 导入 Groceries 数 据 集 : 

> data (Groceries) 


2) 检查 Groceries 数 据 集 的 信息 : 


> summary (Groceries) 
3) 调用 itemFrequencyPlot 函 数 检验 项 集 的 相关 项 集 频 繁 度 : 


> itemFrequencyPlot(Groceries, support = 0.1, cex.names-0.8, 
topN-5) 
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groceties 数 据 集 中 频繁 度 排 名 前 五 的 项 集 的 条 形 图 


4) 使 用 apriori 函 数 找到 支持 度 超过 0.001， 置 信和 度 在 0.5 以 上 的 关联 规则 : 


> rules = apriori(Groceries, parameter = list(supp = 0.001, conf = 
0.5, target- "rules")) 

> summary (rules) 

set of 5668 rules 


rule length distribution (lhs + rhs):sizes 
2 3 i 5 6 


11 1461 3211 939 46 

Min. 1st Qu. Median Mean 3rd Qu. Max. 

2.00 3.00 4.00 3.92 4.00 6.00 
summary of quality measures: 

support confidence lift 

Min. :0.001017 Min. :0.5000 Min. £ 2.957 
lst Qu.:0.001118 lst Qu.:0.5455 lst Qu.: 2.464 
Median :0.001322 Median :0.6000 Median : 2.899 
Mean :0.001668 Mean :0.6250 Mean € 2.264 
3rd Qu.:0.001729 3rd Qu.:0.6842 3rd Qu.: 3.691 
Max. :0.022267 Max. :1.0000 Max. :18.996 


mining info: 


data ntransactions support confidence 
0.001 


Groceries 


5) 查看 前 面 的 一 部 分 规则 : 


> inspect(head(rules)) 
lhs 

ELECE 

1 {honey} 

2.870009 

2 {tidbits} => 

2.836542 

3 {cocoa drinks} 

2.312511 

4 (pudding powder] 

2.212062 

5 (cooking chocolate) => 

2.035097 


6 (cereals) 
4,515917 


m» 


6) 根据 置信 度 对 规则 排序 并 查看 前 面 的 部 分 规则 : 


9835 


rhs 


(whole 


milk) 


(rolls/buns) 


(whole 
(whole 
(whole 


(whole 


milk) 
milk) 
milk) 


milk) 


Ws 


support confidence 


0.001118454 0.7333333 
0.001220132  0.5217391 
0.001321810 0.5909091 
0.001321810 0.5652174 
0.001321810 0.5200000 
0.003660397 0.6428571 


> rules=sort (rules, bysz"confidence", decreasing-TRUE) 


» inspect (head(rules)) 


lhs 
confidence ZTEE 
1 (rice, 

sugar) 
1 3.913649 
2 (canned fish, 


hygiene articles) 
1 3.913649 


3 (root vegetables, 
butter, 
rice) 


rhs 


-» (whole milk) 


-» (whole milk) 


-» (whole milk) 


support 


0.001220132 


0.001118454 


0.001016777 


1 3.913649 
4 (root vegetables, 
whipped/sour cream, 


flour) -» (whole milk) 0.001728521 
1 3.913649 


5 (butter, 
soft cheese, 


domestic eggs) => (whole milk} 0.001016777 
1 3.913649 


6 {citrus fruit, 
root vegetables, 


soft cheese} => {other vegetables} 0.001016777 
1 5.168156 


3. 原 理 


关联 规 则 挖掘 的 目的 是 找 出 事务 数据 库 中 项 集 间 的 关联 。 典 型 地 ， 关 联 规 则 挖掘 的 过 程 包括 找到 大 于 最 小 支持 度 的 项 集 ， 然 后 基于 频繁 项 集 生成 置信 度 大 于 最 小 置信 度 的 强 规 则 ( 例 
如 ，milk=>bread; 顾客 购买 了 牛奶 后 很 可 能 再 同时 买 面包 ) 。 一 个 关联 规则 可 以 形式 化 定义 为 X=>Y， 其 中 X 和 Y 都 是 无 关 项 集 。 我 们 可 以 通过 支持 度 和 置信 和 度 这 两 个 值 来 评估 规则 的 强 弱 。 支 持 度 表示 了 
一 个 规则 在 某 个 数据 集中 出 现 的 频率 ， 而 置信 度 则 代表 项 集 X 和 Y 同 时 出 现在 一 个 事务 中 的 概率 。 





、 _ e(xey) 
ORH- 05 
"T ox 
- 置信 度 = ot) 
这 里 ， 代 表 给 定 项 集 的 频率 ，N 代 表 事 务 的 总 数 。 


由 于 支持 度 和 置信 度 仅 对 判断 规则 强 弱 有 效 ， 有 时 候 一 些 高 支持 度 和 高 置信 度 的 规则 也 可 能 是 元 余 的 。 因 此 ， 我 们 可 以 使 用 第 三 个 指标 一 提升 度 ， 来 评估 规则 的 质量 (级 别 ) 。 从 定义 上 来 解释 ， 提 
升 度 代表 了 项 集 X 和 Y 间 随机 共 现 关系 上 的 规则 强度 ， 如 下 定义 : 


su -LE 
AE gri 加 o (x)xo(y) 


Aprior 是 最 广为人知 的 关联 规则 挖掘 算法 ， 它 依靠 逐 层 的 广度 优先 策略 来 生成 候选 项 集 ， 算 法 首先 逐 层 地 找到 所 有 的 频繁 项 集 (项 集 支 持 度 大 于 给 定 阅 值 ) ， 例 如 ， 先 找到 1- 频 繁 项 集 ， 然 后 基于 1- 频 
繁 项 集 找到 2 -频繁 项 集 ， 依 次 递归 ， 基 于 K- 频 繁 项 集 生成 新 的 K+ 1- 频 繁 项 集 ， 直 至 找 不 到 新 的 频繁 项 集 。 


最 后 ， 利 用 频繁 项 集 产生 关联 规则 : 




















Aptiori 算 法 的 图 示 (支持 度 =2) 


本 节 借 助 Apriori 算 法 找到 了 交易 中 的 关联 规则 。 我 们 使 用 了 内 置 的 Groceries 数 据 集 ， 该 数据 集 包含 了 现实 世界 中 一 个 典型 的 食品 杂货 店 一 个 月 的 交易 数据 。 我 们 使 用 summary 函 数 取得 了 Groceries 数 


据 集 的 统计 信息 ， 该 信息 显示 数据 集 包 含 了 9835 个 事务 ， 被 分 成 169 个 类 别 。 除 了 这 些 ， 还 有 诸如 最 频繁 项 集 、 项 集 分 布 等 信息 。 也 可 以 接着 使 用 itemFrequencyPlot 消 数 绘制 支持 度 超过 0.1 的 五 个 最 频繁 
项 集 。 

接 下 来 ， 我 们 应 用 Apriori 算 法 找 出 支持 度 大 于 0.001， 置 信和 度 大 于 0.5 的 规则 ， 并 使 用 summary 函 数 来 检查 这 些 规则 的 详细 信息 。 从 输出 的 结果 可 知 ， 使 用 Apriori 算 法 获得 了 5668 个 符合 条 件 的 规则 。 
我 们 还 可 以 进一步 获得 有 关 规 则 长 度 的 分 布 情况 ， 质 量 评估 信息 ， 挖 气 结 果 等 。 从 质量 评估 结果 可 以 得 到 三 类 指标 值 ， 分 别 是 支持 度 、 置 信 度 和 提升 度 ， 其 中 ， 支 持 度 代表 了 特定 项 集 在 事务 数据 库 中 所 占 


比例 ， 置 信和 度 是 规则 的 正确 率 ， 而 提升 度 则 是 响应 目标 关联 规则 与 平均 响应 的 比值 。 
可 以 使 用 inspect 国 数 来 查看 部 分 规则 ， 例 如 ，5668 个 规则 中 的 前 6 个 ， 最 后 我 们 也 可 以 对 这 些 规则 依据 置信 和 度 大 小 排序 ， 并 将 置信 度 最 高 的 那些 规则 列表 显示 出 来 。 因 此 在 样 例 中 ， 我 们 发 现 糖 和 全 脂 
牛奶 的 关联 性 最 强 ， 支 持 度 为 0.001220132， 置 信 度 为 1， 提 升 度 则 达到 了 3.913649。 


4 扩展 
如 果 读 者 对 使 用 Groceries 数 据 集 的 挖掘 结果 以 及 支持 度 、 置 信 度 和 提升 度 的 定义 方式 感 兴趣 ， 可 以 参考 以 下 文档 : 
: Michael Hahsler, Kurt Hornik, and Thomas Reuttetet (2006) , Implications of probabilities data modeling for mining association rules.In M.Spiliopoulou, R.Kurse, C.Borgelt.A 


: Nuetnberger, and W.Gaul, eidtors, Form Data and Information Analysis to Knowledge Engineering, Studies in Classification, Data Analysis, and Knowledge Organization, pages 598-605.Springer-verlag 


另外 ， 除 了 使 用 ummary 和 inspect 国 数 来 检查 关联 规则 ， 我 们 还 可 以 调用 interestMeasure 函 数 获得 其 他 有 趣 的 指标 : 


> head(interestMeasure(rules, c("support", "chiSquare", "confidence", 
"conviction","cosine", "coverage", "leverage", "lift","oddsRatio"), 


Groceries)) 


10.5 ”去 挥 见 余 规则 


对 于 已 经 生成 的 规则 ， 有 时 会 存在 重复 或 元 余 的 情况 〈 例 如 ， 一 个 规则 是 另 一 个 规则 的 父 规则 或 子规 则 ) 。 本 节 将 探讨 如 何 去 掉 ( 移 除 ) 这 些 重复 或 元 余 的 规则 。 


1. 准 备 


在 本 节 ， 读 者 需要 完成 前 述 章节 涉及 的 操作 ， 准 备 好 相应 的 规则 集 ， 并 存放 在 rules 变 量 中 。 


2. 操 作 


执行 以 下 操作 以 去 掉 元 余 的 规则 : 


1) 执行 下 述 操作 ， 首 先 找到 元 余 规则 : 


V MV V V 


rules.sorted = sort (rules, by-"lift") 

subset.matrix = is.subset(rules.sorted, rules.sorted) 
subset.matrix[lower.tri(subset.matrix, diag-T)] - NA 
redundant - colSums(subset.matrix, na.rm-T) »- 1 


2) 去 掉 元 余 规则 : 


> rules.pruned = rules.sorted[!redundant] 


> inspect(head(rules.pruned)) 


lhs rhs support 


confidence LITTE 


l 


0. 


2 


0 . 


3 


0. 


4 


0. 


5 


3. 原 理 


(Instant food products, 


soda) -» (hamburger meat) 0.001220132 
6315789 18.99565 


(soda, 

popcorn) -» (salty snack) 0.001220132 
6315789 16.69779 

(flour, 

baking powder) => {sugar} 0.001016777 
5555556 16.40807 

{ham, 

processed cheese} => {white bread} 0.001931876 
6333333 15.04549 

{whole milk, 

Instant food products} => {hamburger meat} 0.001525165 


0.5000000 15.03823 
6 {other vegetables, 


curd, 
yogurt, 
whipped/sour cream) => (cream cheese ) 0.001016777 


0.5882353 14.83409 


关联 规则 挖掘 两 个 主要 的 限制 是 在 支持 度 和 置信 和 度 之 间 选 择 ， 例 如 ， 如 果 用 户 设置 一 个 高 支持 度 阅 值 ， 可 能 就 会 去 掉 那 些 支 持 度 低 但 置信 度 高 的 规则 ; 而 另 一 方面 ， 如 果 用 户 选 择 立 值 较 低 的 支持 度 ， 
则 会 导致 挖掘 结果 中 包含 太 多 的 元 余 规则 ， 使 用 户 难 以 利用 和 分 析 得 到 的 结果 。 因 而 ， 我 们 需要 去 掉 其 中 的 元 余 规 则 ， 发 现 这 些 规 则 中 真正 有 意义 的 信息 。 


本 节 ， 我 们 展示 了 去 掉 元 余 规则 的 过 程 。 首 先 ， 我 们 需要 找 出 这 些 元 余 的 规则 ， 可 以 基于 提升 度 对 规则 排序 ， 再 调用 is.subset 函 数 找到 已 排序 规则 的 子 集 ，is.subset 函 数 会 产生 一 个 itemMatrix 对 象 。 
可 以 将 下 三 角 和 矩 阵 设置 为 NA， 然 后 计算 矩 阵 的 colSums 值 ， 如 果 该 值 >=1， 则 意味 着 该 指定 规则 是 匈 余 的 。 当 我 们 找到 这 些 匈 余 规 则 后 ， 就 可 以 从 已 排序 的 规则 中 去 掉 它 们 。 最 后 ， 再 调用 inspect 函 数 检 


验 这 些 匈 余 规则 。 


4. 扩 展 


. 为 了 找到 规则 的 子 集 或 父 集 ， 可 以 使 用 is.supetset 和 is.subset 函 数 来 获取 关联 规则 ， 这 两 种 方法 都 能 产生 一 个 itemMatrix 对 象 来 发 现 规则 之 间 的 包含 关系 。 读 者 可 以 调用 help 函 数 获得 更 多 的 信息 : 


> help(is.superset) 
> help(is.subset) 


10.6 ”关联 规则 的 可 视 化 


除了 以 文本 形式 列表 展示 天 联 规则 外 ， 我 们 还 可 以 对 规则 进行 可 视 化 ， 以 便 更 轻松 地 发 现 项 集 间 的 关联 。 在 接 下 来 的 小 节 中 ， 我 们 将 介绍 如 何 使 用 aruleViz 包 实现 关联 规则 的 可 视 化 。 


1. 准 备 
在 本 节 ， 我 们 将 继续 使 用 Groceries 数 据 集 ， 读 者 需要 完成 前 述 章节 的 操作 ， 准 备 好 已 经 去 掉 宛 余 的 规则 集 rules.pruned。 


2. 操 作 
执行 以 下 操作 完成 关联 规则 的 可 视 化 : 


1) 首先 ， 安 装 和 导入 arulesViz 包 : 


> install.packages ("arulesViz") 
> library (arulesViz) 


2) 绘制 已 经 去 掉 元 余 规则 的 散 点 图 : 


> plot (rules.pruned) 


Scatter plot for 3958 rules 
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精简 规则 的 散 点 图 


3) 为 了 防止 数据 点 之 间 相 互 重 者， 可 以 增加 散 点 图 中 点 的 抖动 : 


> plot(rules.pruned, shading-"order", control-list(jitter-6)) 


Scatter plot for 3958 rules 
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精简 的 规则 的 抖动 图 


4) 使 用 Apriori 算 法 生成 左边 为 soda 的 新 规则 : 


> soda rulezapriori(data-zGroceries, parameter-list(suppz0.001,conf 
= 0.1, minlen-2), appearance = list(default-"rhs",lhs-"soda")) 


5) 调用 plot 函 数 绘制 soda_rule 图 : 


> plot (sort (soda rule, by="lift"), method-"graph", 
control=list (type="items")) 


Graph for 11 rules | 
size: support (0.018 - 0.04) 
color: lift (0.899 - 1.504) 
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关联 规则 的 图 示 


6) 调用 plot 函 数 绘制 关联 规则 的 气球 图 : 


> plot(soda rule, method-"grouped") 


Grouped matrix for 11 rules 


size: support 
— RHS color: lift 


bottled water} 


root vegetables) 
other vegetables] 
whole milk} 





关联 规则 的 气球 图 


3. 原 理 


除 采 用 文本 方式 展现 关联 规则 外 ， 我 们 还 可 以 使 用 arulesViz 包 实现 关联 规则 的 可 视 化 。arulesViz 是 arules 的 扩展 包 ， 提 供 了 多 种 展现 关联 规则 的 可 视 化 方法 。 在 使 用 arulesViz 包 之 前 ， 我 们 首先 需要 完 
成 arulesViz 包 的 安装 和 导入 。 然 后 我 们 绘制 上 节 中 生成 的 已 经 去 掉 了 元 余 的 规则 集 的 散 点 示意 图 ， 如 步骤 2) 的 示意 图 所 示 ， 散 点 图 中 的 点 表示 规则 ， 其 中 x 轴 是 规则 的 支持 度 ，y 轴 代表 规则 的 置信 和 度 ， 颜 
色 浅 深 代表 了 规则 的 提升 度 大 小 ， 颜 色 越 深 ， 提 升 度 越 高 。 此 外 ， 为 了 防止 点 的 重 硬 ， 可 以 在 控制 参数 表 中 增加 一 项 jitter 的 设置 ， 如 步骤 3) 的 示意 图 所 示 ， 图 中 增加 了 点 的 抖动 。 


除了 散 点 图 绘制 规则 方式 ，arulesViz 还 支持 采用 组 合 和 矩阵 图 方式 。 样 例 中 ， 我 们 没有 在 单个 图 中 显示 所 有 的 规则 ， 而 是 仪 挑选 了 那些 左边 为 项 soda 的 规则 进行 演示 。 在 步骤 4) 中 ， 我 们 根据 规则 的 提 
升 度 完成 规则 的 排序 ， 并 用 图 形 方式 展现 结果 。 从 图 示 可 知 ，soda=> mik 这 条 规则 的 支持 度 最 大 ， 节 点 所 占 面积 也 最 大 ; 而 soda= >bottled water 提 升 度 最 高 ， 节 点 颜色 最 深 。 我 们 还 可 以 如 步骤 5) 所 
示 ， 用 相同 的 数据 生成 一 个 所 有 左边 为 soda 的 矩阵 组 ， 绘 制 气球 图 来 展现 这 些 规 则 。 与 步骤 4) 的 结果 图 类 似 ， 步 骤 ?5) 中 得 到 的 结果 图 也 一 样 可 以 通过 气球 的 面积 显示 规则 的 支持 度 ， 用 气球 的 颜色 深浅 来 
表示 规则 的 提升 度 高 低 。 


4. 扩 展 
- 本 节 介 绍 了 三 种 关联 规则 可 视 化 的 方法 ，atulesViz 包 还 提供 函数 绘制 平行 轮 廊 图 、 双 层 图 、 马 赛 克 图 以 及 其 他 相关 图 表 。 如 果 读 者 对 这 些 图 表 的 绘制 方法 感 兴趣 ， 可 以 参考 : 
Hahsler, M., and Chelluboina, S. (2011) .Visualizing association rules: Introduction to the R-extention package arulesViz.R porject module. 


.如果 需要 生成 统计 图 ， 可 以 参考 以 下 步骤 ， 将 ihtetative 参 数 设 置 为 TRUE ， 以 得 到 交互 式 图 形 : 


> plotí(rules.pruned,interactive-TRUE) 


Scatter plot for 3958 rules 
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交互 的 散 点 图 


10.7 ”使 用 Eclat 挖 掘 频繁 项 集 


除了 Apriori 算 法 ， 我 们 还 可 以 使 用 Eclat 算 法 来 生成 频繁 项 集 。 由 于 Apriori 算 法 采用 广度 优先 策略 来 遍历 数据 库 ， 因 而 算法 整体 耗 时 较 长 。 如 果 数 据 库 可 以 整个 装 入 内 存 中， 就 可 以 使 用 深度 优先 的 
Eclat 算 法 ， 因 此 Eclat 算 法 的 效率 要 比 Apriori 算 法 高 。 本 节 将 介绍 如 何 使 用 Eclat 算 法 来 生成 频繁 项 集 。 
1. 准 备 

本 节 ， 我 们 继续 将 Groceries 数 据 集 作为 输入 数据 源 。 
2. 操 作 

执行 以 下 操作 ， 使 用 Eclat 算 法 挖掘 频繁 项 集 : 


1) 与 Apriori 算 法 类 似 ， 我 们 可 以 调用 eclat 函 数 生成 频繁 项 集 : 


> frequentsets=eclat (Groceries,parameter=list (support=0.05,maxl 
en=10)) 


2) 调用 summary 浮 数 输出 频繁 项 集 的 信息 : 


> summary(frequentsets) 
set of 31 itemsets 


most frequent items: 


whole milk other vegetables yogurt 
4 2 2 
rolls/buns frankfurter (Other) 
2 : d 23 


element (itemset/transaction) length distribution:sizes 


L 4 
28 3 
Min. 1st Qu. Median Mean 3rd Qu. Max. 


1.000 1.000 1.000 1.097 1.000 2.000 


summary of quality measures: 
support 

Min. :0.05236 

Ist Qu.:0.05831 

Median :0.07565 

Mean :0.09212 

3rd Qu.:0.10173 

Max. :0.25552 


includes transaction ID lists: FALSE 


mining info: 
data ntransactions support 
Groceries 9835 0.05 


3) 最 后 ， 输 出 最 频繁 的 10 个 项 集 : 


> inspect(sort(frequentsets,by-"support") [1:10]) 


items support 
1 (whole milk) 0.25551601 
2 (other vegetables) 0.19349263 
3 (rolls/buns) 0.18393493 
4 {soda} 0.17437722 
5 {yogurt} 0.13950178 
6 (bottled water] 0.11052364 
7 (root vegetables) 0.10899847 
8 (tropical fruit)  0.10493137 
9 {shopping bags) 0.09852567 
10 {sausage} 0.09395018 


3. 原 理 


本 节 介 绍 了 另外 一 种 生成 频繁 项 集 的 算法 Eclat。 尽 管 Apriori 算 法 非常 直接 也 易于 理解 ， 但 算法 的 缺点 是 需要 多 遍 扫 摘 数 据 库 因而 会 产生 大 量 候 选项 集 ， 支 持 度 的 计算 也 很 耗 时。 而 与 Apriori 相 
比 ，Eclat 算 法 采用 了 等 价 类 、 深 度 优先 遍历 、 求 交集 等 策略 ,支持 度 计 算 效率 有 很 大 改善 。 


Apriori 算 法 使 用 了 水 平 数据 结构 来 存放 事务 ，Eclat 则 使 用 垂直 数据 结构 来 存放 每 个 事务 的 交易 ID (tid) 列表 ， 在 计算 k+1- 项 集 的 支持 度 时 ，Eclat 算 法 只 需要 计算 两 个 k- 项 集 的 tid- 表 的 交集 即 可 。 最 
后 ，Eclat 算 法 也 从 频繁 项 集中 生成 关联 规则 。 


Horizontal Data Layout Vertical Data Layout 
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Eclat 算 法 图 示 说 明 


与 上 一 节 使 用 Apriori 算 法 类 似 ， 我 们 也 可 以 调用 eclat 函 数 生成 给 定 支 持 度 (假定 样 例 中 支持 度 为 2) 下 的 频繁 项 集 以 及 最 大 项 集 长 度 。 

















4. 扩 展 


生成 频繁 项 集 
然后 使 用 ummary 函 数 获 得 这 些 统计 信息 ， 包 括 : 最 频繁 项 集 、 项 集 长 度 分 布 、 质 量 评估 信息 和 挖 据 信 息 等 。 最 后 ， 可 以 根据 支持 度 对 频繁 项 集 排序 ， 找 到 最 频繁 的 10 个 项 集 。 
除了 Apriori 和 Eclat，FP-Growth 也 是 应 用 非常 广 的 一 种 关联 规则 挖掘 算法 ， 与 Eclat 算 法 相似 ，FP 算 法 也 是 采用 深度 优先 搜索 策略 来 计算 项 集 支 持 度 ， 不 过 ， 在 CRAN 中 没有 提供 现成 的 R 包 来 实现 FP 


算法 。 如 果 读 者 对 在 R 中 如 何 应 用 FP 算 法 来 处 理 交 易 数据 集 感 兴趣 ， 可 以 参考 Christian Borgelt 的 主页 : 


http://www.borgelt.net/fpgrowth.html 


10.8 ”生成 时 人 态 事务 数据 


除了 在 事务 数据 库 中 挖掘 感 兴趣 的 关联 规则 ， 我 们 还 可 以 对 带 有 时 态 信息 的 事务 数据 进行 有 意义 的 序列 模式 挖掘 。 本 节 将 探讨 如 何 生成 带 有 时 态 信息 的 事务 数据 。 


1. 准 备 


在 本 节 ， 我 们 将 生成 时 态 事务 数据 ， 并 将 其 作为 频繁 序列 模式 挖掘 的 输入 数据 源 。 


2. 操 作 


执行 以 下 操作 ， 以 生成 时 态 事务 数据 ; 


1) 安装 和 导入 arulesSequences 包 : 


> install.packages ("arulesSequences") 
> library (arulesSequences) 


2) 生成 购买 记录 的 列表 : 


tmp data-list(c("A"), 

G("A", "BF, 1C") ; 
c[("A", ^C"), 
cin" 7 
a a 
GITAT, EP 
c("C"), 
GÍ"B*, "c*); 
CI"AT, "E"J. 
"HIU"EC, "EU, 
GITAT "BP 
c("D","F"), 
c("c"), 
c("B"), 
c("E"), 
c("G"), 
c("A","F"), 
c("C"), 
c(*"BH"), 

s dad ooa 


*okBoR o BR B RB o B B o BR RR BR GS X Ro 0B o R s R GS RR oR + Vv 


3) 将 列表 转换 为 事务 数据 ， 增 加 时 态 信息 : 


>names (tmp data) = paste("Tr",c(1:20), sep = "") 

>trans = as(tmp data,"transactions") 
»transactionInfo(trans)$sequenceID 
zco[1,1,1,1,1,2,2,42,4,3,3,3,3,3,4,4,4,4, 4, 4) 
»transactionInfo(trans)S$eventID-c(10,20,30,40,50,10,20,30,40,10,20 
,30,40,50,10,20,30,40,50,60) 

» trans 

transactions in sparse format with 

20 transactions (rows) and 

7 items (columns) 


4) 调用 inspect 函 数 检查 这 些 事务 数据 : 


> inspect (head (trans) ) 
items transactionID sequenceID eventID 


L A! Trl 1 10 
2 (A, 

B, 

Cc) Tr2 1 20 
3: DÀ, 

C} Tr3 1 30 
4 (D) Tr4 1 40 
E dE 

F) Tr5 1 50 
6 (A, 

D) Tr6 2 10 


5) 输出 这 些 时 态 事务 数据 的 信息 : 


> summary (trans) 

transactions as itemMatrix in sparse format with 
20 rows (elements/itemsets/transactions) and 
7 columns (items) and a density of 0.2214286 


most frequent items: 
E A B F D (Other) 
8 7 5 i 3 4 


element (itemset/transaction) length distribution: 


sizes 
1 2 3 
10 9 1 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
1.00 1.00 1.50 1:55 2.00 3.00 
includes extended item information - examples: 
labels 
1 A 
2 B 
3 e 
includes extended transaction information - examples: 


transactionID sequenceID eventID 
zx L 10 

2 Tr2 l 20 
5 TES il 30 


6) 将 交易 数据 以 购物 篮 形式 读 入 : 


> zaki=read baskets(con = system.file("misc", "zaki.txt", package 
"arulesSequences"), info = c("sequenceID","eventID","SIZE")) 


» as(zaki, "data.frame") 


transactionID.sequenceID transactionID.eventID transactionID. 


SIZE items 

1 1 10 
2 (c.p) 

2 1 15 
3  (A,B,C) 

3 1 20 
3  (A,B,F) 

4 1 25 
4 (A,C,D,F) 

5 2 15 
3  (A,B,F) 

6 2 20 
1 {E} 

7 3 10 
3  (A,B,F) 

8 i 10 
3  (Dp,G,H) 

9 i 20 
2 (B,F) 

10 4 25 


3. 原 理 


在 挖掘 频繁 序列 模式 之 前 ， 我 们 需要 先 准备 好 时 态 事务 数据 。 本 节 介 绍 了 两 种 生成 时 态 交 易 数 据 的 方法 ， 首 先 ， 我 们 创建 了 一 个 事务 列表 ， 然 后 为 每 次 交易 都 设置 了 一 个 事务 ID， 再 调用 as 函数 将 列表 
中 的 数据 转换 为 事务 数据 集 ， 再 通过 添加 eventID 和 sequencelD 两 个 属性 来 完善 时 态 信息 。 其 中 ，sequencelD 用 来 指明 事件 所 属 的 序列 ， 而 eventID 则 用 来 标明 事件 发 生 的 时 间 。 当 生成 时 态 事务 数据 后 ， 
我 们 就 可 以 利用 这 一 数据 集 来 实施 频繁 序列 模式 挖掘 。 


除了 生成 我 们 自己 的 时 态 事务 数据 ， 如 果 读 者 已 经 提前 将 数据 存放 在 某 个 文本 文件 中 ， 也 可 以 调用 arulesSsequences 包 中 的 read_basket 函 数 将 这 些 事务 数据 以 一 篮子 形式 读 入 内 存 中 ， 为 进一步 展开 频 
繁 序列 模式 挖掘 做 准备 。 


44r fi 


: arulesSequences 函 数 提 供 了 两 个 新 的 数据 结构 : sedquence 和 timedsequences， 用 来 表示 纯 序 列 数据 和 时 态 序 列 数据 。 如 果 读 者 对 这 两 种 数据 结构 感 兴趣 ， 可 以 调用 help 函 数 参 考 以 下 文档 : 


> help("sequences-class") 


> help("timedsequences-class") 


10.9 使 用 cSPADE 挖 掘 频 繁 时 序 模式 


与 关联 挖掘 仅 关 注 项 集 间 联系 不 同 ， 我 们 也 可 能 会 对 顺序 发 生 的 时 态 事务 数据 中 隐 含 的 模式 感 兴趣 。 


等 价 类 序列 模式 挖掘 (Sequential Pattern Discovery using Equivalence classes, SPADE) 是 广为人知 的 一 种 频繁 序列 模式 挖掘 算法 ， 算 法 利用 垂直 数据 库 的 特性 ， 通 过 求 1D 表 的 交集 以 及 有 效 的 格 
搜索 策略 完成 频繁 序列 模式 的 挖掘 ， 同 时 还 支持 对 挖掘 到 的 序列 添加 约束 。 本 节 将 探讨 如 何 使 用 cSPADE 包 来 挖掘 频繁 序列 模式 。 


1. 准 备 

在 本 节 ， 读 者 需要 完成 前 述 章节 提 及 的 操作 ， 将 准备 好 的 时 态 事务 数据 存放 在 trans 变 量 中 。 
2. 操 作 

执行 以 下 操作 以 完成 频繁 序列 模式 挖掘 : 


1) 调用 cspade 函 数 生 成 频繁 序列 模式 : 


> S result-zcspade(trans,parameter = list (support = 0.75),control = 
list (verbose = TRUE) ) 


2) 输出 频繁 序列 模式 的 统计 信息 : 


> summary(s result) 


set of 14 sequences with 


most frequent items: 


C A B D E (Other) 


{c} {A} {B} {D} {E} (Other) 


8 5 5 2 1 1 


element (sequence) size distribution: 
sizes 
l2 3 
662 


sequence length distribution: 
lengths 

1 23 

66 2 


summary of quality measures: 
support 
Min. :0.7500 
ist Qu.:0.7500 
Median :0.7500 
Mean 10.8393 


3rd Qu.:1.0000 
Max. :1. 0000 


includes transaction ID lists: FALSE 


mining info: 
data ntransactions nsequences support 
trans 20 4 0.75 
3) 将 生成 的 序列 从 数据 备份 中 改 为 数据 框 格 式 存放 : 


> as(s result, "data.frame") 

sequence support 
«(A)» 1.00 
«(B)» 1.00 
«(c)» 1.00 
«(D)» 0.75 
«(E)» 0.75 
<{F}> 0.75 

«(A), A 1.00 


y OY Ul dH» Wù N H 


8 <{B}, {C}> B. 


9 ee TOI. 0.75 
10 «(D),(C)^ 0.75 
EI ch -AC Le} 0.75 
12 «(A), (B) > 1.00 
L3 «(C), (B) 5 B. 


14 «(A),(C), {B}> 0.75 


3. 原 理 
序列 模式 挖掘 目标 在 于 找到 事务 数据 中 隐 含 的 序列 关系 或 模式 ， 我 们 可 以 利用 模式 挖掘 的 结果 来 预测 未 来 可 能 发 生 的 事件 或 向 用 户 推荐 一 些 商 品 项 。 


序列 模式 挖掘 常用 方法 是 使 用 ?PADE 算 法 ， 该 算法 使 用 了 垂直 数据 结构 存放 ID 列表 ， 数 据 库 中 每 个 输入 序列 都 拥有 一 个 SID 值 ， 而 事件 则 拥有 各 自 的 EID 值 。SPADE 算 法 首先 采用 类 似 Apriori 算 法 生成 
候选 项 集 的 思想 ， 通 过 对 1D 表 求 交集 ， 从 (n-1) -序列 生成 n- 序 列 的 子 集 ， 如 果 某 序列 的 出 现 次 数 大 于 给 定 的 最 小 支持 度 (minimum support, minsup) ， 则 认为 其 足够 频繁 ， 当 算法 再 也 找 不 到 新 的 序 
列 时 结束 挖掘 。 
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本 节 解 释 了 如 何 使 用 频繁 序列 模式 挖掘 算法 cSPADE 来 挖掘 频繁 序列 模式 。 首 先 加 载 我 们 之 前 已 经 准备 好 的 时 态 交 易 数 据 集 变量 trans， 将 支持 度 设 定 为 0.75， 再 调用 cspade 六 数 将 得 到 Sequence 格式 
的 频繁 序列 模式 。 然 后 可 以 输出 结果 ， 包 括 : 最 频繁 项 集 、 序 列 大 小 分 布 、 质 量 评估 信息 和 挖掘 信息 等 。 最 后 ， 我 们 还 可 以 将 得 到 的 sequence 类 型 数据 存 回 数 据 框 架 类 型 ， 这 样 我 们 就 能 够 检查 那些 支持 度 
大 于 0.75 的 频繁 序列 的 相关 信息 了 。 


4. 扩 展 


如 果 读者 对 SPADE 算 法 的 基本 思想 和 设计 感 兴趣 ， 可 以 参考 以 下 原始 文档 : 


M.J.Zaki. (2001) .SPADE: An Efficient Algorithm for Mining Frequent Sequences.Machine Learning Journal, 42, 31-60. 


第 11 章 ” 降 维 


大 多 数 数据 集中 都 包含 了 高 度 匈 余 的 特征 (如 属性 或 变量 ) ， 为 了 去 掉 这 些 关 联 性 不 大 和 元 余 的 数据 ， 确 保 在 不 出 现 过 度 适 应 的 前 提 下 降低 计算 的 成 本 ， 就 需要 实现 对 特征 的 无 损 归 约 ， 在 数学 上 这 一 
过 程 被 称 为 降 维 。 


c—— 


通过 特征 优化 能 够 提高 数据 处 理 的 效率 ， 因 此 ， 降 维 被 广泛 应 用 于 模式 识别 、 文 本 检索 以 及 机 器 学 习 等 领域 。 降 维 主要 可 以 被 分 成 两 类 : 特征 提取 和 特征 筛选 。 其 中 ， 特 征 提取 是 指 将 高 维 数据 投影 至 
低 维 数据 空间 中 ; 特征 筛选 是 指 用 特征 子 集 来 替代 原始 特征 集 ， 实 现 仅 利用 一 组 相关 特征 构建 数据 模型 的 目的 。 特 征 筛选 方法 可 以 概括 成 特征 分 级 和 特征 筛选 ， 特 征 分 级 是 指 按 某 些 特定 约束 对 特征 进行 分 
级 并 挑选 出 约束 值 大 于 给 定 阔 值 的 那些 特征 ， 也 就 是 说 ， 特 征 分 级 的 目的 是 希望 找到 优化 后 的 特征 子 集 。 


特征 抽取 可 以 分 成 线性 抽取 和 非 线性 抽取 两 种 方法 。 线 性 抽取 试图 找到 一 个 仿 射 空间 能 够 最 好 地 说 明 数 据 分 布 的 变化 。 与 之 相反 ， 非 线性 方法 对 高 维 非 线 性 曲线 平面 分 布 的 数据 非常 有 效 。 以 下 是 一 些 
常用 的 线性 及 非 线 性 特征 抽取 方法 。 


线性 特征 抽取 方法 如 下 : 
PCA: 主 成 分 分 析 将 数据 映射 到 低 维 空间 ， 使 得 低 维 数 据 能 最 大 限度 地 保持 高 维 数据 的 方差 信息 。 


MDS: 多 维 尺度 分 析 ， 该 方法 能 够 帮助 用 户 掌 握 对 象 之 间 的 相对 距离 (模式 距离 ) ， 并 获得 数据 在 低 维 空间 的 表达 形式 。 如 果 在 MDS 方 法 中 使 用 数据 的 协 方差 作为 距离 测度 ， 就 可 以 将 PCA 看 作 MDS 
的 一 种 最 简单 的 形式 。 


SVD: 奇异 值 分 解 方法 会 去 掉 从 线性 代数 角度 观察 存在 线性 相关 的 宛 余 特征 。 同 样 ，PCA 也 可 以 被 看 成 SVD 的 特例 。 
非 线 性 特征 抽取 方法 如 下 : 
: ISOMAP: ISOMAP 可 以 被 看 成 MDS 的 扩展 ， 它 使 用 几何 距离 作为 距离 计算 标准 ， 这 里 的 几何 距离 特 指 两 点 之 间 的 最 短路 径 。 


LLE: 局 部 线性 庶 入 法 采用 局 部 PCA 和 全 局 特征 分 解 ， 相 比 ISOMAP，LLE 主 要 处 理 局 部 解 ， 目 标 是 为 每 个 特征 类 选择 合适 的 特征 子 集 ， 而 SOMAP 则 面向 处 理 全 部 的 特征 。 


本 节 将 首先 探讨 如 何 进 行 特征 分 级 和 筛选 ， 然 后 将 把 注意 力 集中 放 在 通过 线性 及 非 线 性 方法 实施 特征 抽取 和 降 维 上 。 在 线性 特征 抽取 方法 中 ， 将 主要 探讨 使 用 PCA 方 法 来 确定 主 成 分 数目 及 结果 的 可 视 
化 ， 然 后 再 介绍 MDs 和 3SVD 方 法 。 另 外 ， 我 们 还 将 讨论 VD 在 图 像 压 缩 方 面 的 应 用 。 对 于 非 线性 特征 抽取 方法 ， 我 们 主要 介绍 如 何 使 用 SOMAP 和 LLE 方 法 完成 降 维 。 
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11.2 ”使 用 FSelector 完 成 特征 靖 选 


FSelector 算 法 包 提 供 了 两 种 方法 完成 从 原始 特征 集中 挑选 出 最 有 影响 力 的 特征 。 首 先 ， 通 过 设 定 一 些 标准 ， 然 后 挑选 出 满足 这 些 标准 的 特征 ; 再 从 特征 子 集 空间 中 找到 优化 后 的 特征 子 集 。 本 节 将 介绍 
如 何 使 用 FSelector 包 完成 特征 筛选 。 


1. 准 备 


本 节 将 继续 使 用 telecom churn 数 据 集 作为 训练 支持 向 量 机 的 输入 数据 源 。 如 果 读 者 对 该 数据 集 还 不 是 特别 了 解 ， 请 参阅 第 5 章 相关 内 容 。 


2. 操 作 


执行 以 下 操作 ， 完 成 churn 数 据 集 的 特征 筛选 : 


1) 安装 和 导入 FSelector 包 : 


2) 将 重要 类 型 设置 为 1， 调 用 random .forest.importance 函 数 计算 每 个 属性 的 权 值 : 


> install.packages("FSelector") 


> library (FSelector) 


> weights = random.forest.importance(churn-., 


importance.type = 1) 


> print (weights) 


attr importance 


international plan 96.3255882 
voice mail plan 24.8921239 
number vmail messages 31.5420332 
total day minutes 51.9365357 
total day calls -0.1766420 
total day charge 53.7930096 
total eve minutes 33.2006078 
total eve calls -2.2270323 
total eve charge 32.4317375 
total night minutes 22.0888120 
total night calls 0.3407087 
total night charge 21.6368855 
total intl minutes 32.4984413 
total intl calls 51.1154046 
total intl charge 32.4855194 
number customer service calls 114.2566676 


3) 调用 cutoff 函 数 获得 权 值 最 高 的 五 个 属性 : 


> subset = cutoff.k(weights, 5) 

> f = as.simple.formula(subset, "Class") 

* printitf) 

Class ~ number customer service calls + international plan + 
total day charge + total day minutes + total intl calls 

«environment: 0x00000000269a28e8» 


4) 对 挑选 出 来 的 特征 子 集 进 行 评估 : 


> evaluator = function(subset) ( 


一 kas 

一 set.seed(2) 

一 ind = sample(5, nrow(trainset), replace = TRUE) 

- results - sapply(1:k, function(i) ( 

- train - trainset[ind --i,] 

- test = trainset[ind !-i,] 

十 tree = rpart(as.simple.formula(subset, "churn"), trainset) 
4 error.rate - sum(test$churn !- predict(tree, test, 


type-"class")) / nrow(test) 


十 return(1 - error.rate) 
}) 
+ return (mean (results)) 


El 


5) Sa, WER RREME R: 


> attr.subset = hill.climbing.search (names (trainset) 
[!names (trainset) %in% "churn"], evaluator) 


> f = as.simple.formula(attr.subset, "churn") 
» print(f) 


churn ~ international plan + voice mail plan + number vmail 
messages + 


total day minutes + total day calls + total eve minutes + 


total eve charge + total intl minutes + total intl calls + 
total intl charge + number customer service calls 


«environment: 0x000000002224d3d0» 


3. 原 理 


本 节 介 绍 了 如 何 使 用 Fselector 包 来 选择 最 具 影 响 的 特征 集合 。 我 们 首先 探讨 了 特征 分 级 的 方法 ， 在 特征 分 级 方法 中 ， 算 法 首先 调用 一 个 权重 函数 得 到 每 个 特征 的 权重 值 ， 在 样 例 中 使 用 了 随机 森林 算法 
进行 样本 权重 计算 ， 权 重 评价 指标 选用 了 平均 精确 度 下 降 (importance.type=1) 。 除 了 随机 森林 方法 ， 我 们 还 可 以 选择 Fselector 包 中 其 他 的 特征 分 级 算法 (如 chi.squared、information.gain) 。 计 算 
得 到 每 个 特征 的 权重 后 ， 就 可 以 对 这 些 属性 排序 ， 最 后 根据 排序 结果 调用 cutoff 函 数 得 到 排名 靠 前 的 五 个 特征 。 在 样 例 中 ， 五 个 最 重要 的 特征 分 别 是 : number customer service calls, 


international plan, total day charge, total day minutes 以 及 total intl calls, 


然后 ， 我 们 接着 展示 了 如 何 获 取 优 化 的 特征 子 集 。 首 先 ， RIRA T SLAE SET P AEG ESSET RERE, FAJ PHSERBIELL ES ZETA JG SEUESRE GAS CHÜUHCBS EGET SE, iex RORILAA 
Fselector 包 中 选择 其 他 的 特征 筛选 算法 (DIRE, forward.search) 。 最 后 可 以 从 结果 得 


Al, international plan-voice mail plan+number vmail messages+total day minutes+total day calls+total eve minutes+total eve charge-total intl minutes+total intl calls+total intl char 


是 符合 条 件 的 优化 特征 子 集 。 
4 扩展 
- 读者 也 可 以 使 用 我 们 曾经 在 模型 评估 那 一 章 介 绍 的 caret 包 来 进行 特征 筛选 ， 更 多 信息 ， 可 以 参考 第 7 章 内 容 。 


| 更 多 有 关 FSelector 包 对 特征 分 级 和 特征 优化 功能 提供 的 支持 ， 可 以 参考 以 下 文档 : 


> help(package-"FSelector") 


11.3 ”使 用 PCA 进 行 降 维 


主 成 分 分 析 (Principal Component Analysis, PCA) 是 一 种 应 用 非常 广泛 的 线性 降 维 方法 ， 它 特别 适合 数据 集 包含 非常 多 的 特征 ， 并 且 这 些 特 征 之 间 彼 此 元 余 (相关 ) 的 情况 。PCA 方 法 通过 将 特征 
集 缩减 成 一 小 部 分 能 代表 原始 特征 集 最 主要 变化 的 主要 特征 分 量 ， 来 实现 高 维 数据 到 低 维 数 据 空 间 的 映射 。 本 节 将 介绍 如 何 使 用 PCA 方 法 降 维 。 


1. 准 备 


本 节 将 使 用 swiss 数 据 集 作 为 实施 PCA 的 对 象 ，swiss 数 据 集 收集 了 1888 年 瑞士 47 个 法 语 省 份 的 标准 化 生育 指标 及 社会 经 济 指数 。 


2. 操 作 
执行 以 下 操作 ， 完 成 对 swiss 数 据 集 的 主 成 分 分 析 : 


1) 导入 swiss 数 据 集 : 


> data (swiss) 


2) 去 掉 第 一 列 : 


> swiss = swiss[,-1] 
3) 在 数据 集 上 进行 主 成 分 分 析 : 


> swiss.pca = prcomp (swiss, 
+ center = TRUE, 

+ scale = TRUE) 

> swiss.pca 

Standard deviations: 


[1] 1.6228065 1.0354873 0.9033447 0.5592765 0.4067472 


Rotation: 

PC1 PC2 PC3 PC4 
PC5 
Agriculture 0.52396452 -0.25834215 0.003003672 -0.8090741 
0.06411415 
Examination  -0.57185792 -0.01145981 -0.039840522 -0.4224580 
-0.70198942 
Education -0.49150243 0.19028476 40.539337412 -0.3321615 
0.56656945 
Catholic 0.38530580 40.36956307 40.725888143 0.1007965 
-0.42176895 
Infant.Mortality 0.09167606 0.87197641 -0.424976789 -0.2154928 
0.06488642 


4) 输出 PCA 处 理 的 结果 : 


> summary(swiss.pca) 
Importance of components: 

PC1 PC2 PC3 PC4 PC5 
Standard deviation 1.6228 1.0355 0.9033 0.55928 0.40675 
Proportion of Variance 0.5267 0.2145 0.1632 0.06256 0.03309 
Cumulative Proportion 0.5267 0.7411 0.9043 0.96691 1.00000 


5) 调用 predict 函 数 输出 主 成 分 的 第 一 行 数 据 值 : 


> predict (swiss.pca, newdata-head(swiss, 1)) 
PC1 PC2 PC3 PC4 PC5 
Courtelary -0.9390479 0.8047122 -0.8118681 1.000307 0.4618643 


3. 原 理 
由 于 特征 选择 过 程 中 会 去 掉 一 些 彼此 关联 但 有 价值 的 特征 ， 我 们 需要 在 特征 抽取 过 程 中 考虑 将 这 些 相关 特征 综合 到 单 特征 中 。PCA 就 是 这 样 一 类 特征 抽取 算法 ， 它 采用 了 正 交 变换 将 彼此 有 可 能 关联 的 
特征 转换 为 主 成 分 ， 以 便 我 们 能 够 利用 这 些 主 成 分 来 确定 方差 趋势 。 


PCA 算 法 主要 包括 以 下 几 个 步骤 : 第 1 步 ， 找 到 平均 向 量 ，“ ?>*，x 为 数据 点 ，n 为 点 的 总 个 数 ， 第 2 步 ， 通 过 等 式 计算 协 方差 矩阵 ，“ 7 一“ “~; 第 3 步 ， 计 算 特 征 向 量 ， 以 及 相应 的 特征 值 ;第 4 
步 ， 对 特征 向 量 排序 并 选择 前 k 个 特征 向 量 ”; 第 5 步 ， 构 建 一 个 dxk 维 特征 向 量 矩阵 U， 此 处 ，d 为 原始 维度 数 ，k 为 特征 向 量 数 ;最 后 ， 根 据 等 式 y= UTx 和 将 数据 样本 转换 为 新 的 子 集 。 


如 下 图 所 示 ， 我 们 可 以 使 用 两 个 主 成 分 ”1 和 9? 2， 将 数据 点 从 原来 的 二 维 空间 转换 到 新 的 二 维 子 空间 中 : 





PCA 示 意图 


本 节 调用 了 stats 包 中 的 procomp 函 数 对 swiss 数 据 集 进 行 了 PCA 处 理 。 我 们 首先 去 掉 了 标准 化 生育 指标 这 一 列 ， 并 将 剩 下 的 预测 项 作为 procomp 的 输入 。 此 外 ， 我 们 将 swiss 作 为 数据 源 ， 通 过 设置 
center=TRUE， 让 变量 向 中 心 靠 近 ; 设置 scale=TRUE， 使 数据 标准 化 ， 将 输出 存放 在 变量 swiss.pca 中 。 


从 变量 swiss.pca 的 输出 ， 我 们 可 以 观测 到 主 成 分 的 标准 差 及 主 成 分 旋转 。 标 准 差 为 协 方差 /相关 系数 矩阵 特征 值 的 平方 根 ， 主 成 分 旋转 代表 了 输入 特征 线性 组 合 系数 。 例 如 ，PC1 等 于 
Agriculturex0.524+Examinationx-0.572+Educationx-0.492+Catholicx0.385+lnfant.Mortalityx0.092， 构 成 PC1 最 主要 的 属性 为 Agriculture， 因 此 其 系数 值 最 高 。 


另外 ， 我 们 还 可 以 利用 summary 函 数 获得 各 成 分 的 重要 性 。 第 一 行为 各 主 成 分 的 标准 差 ， 第 二 行为 各 成 分 对 应 的 解释 变量 比例 ， 第 三 行为 对 应 变量 的 累积 比例 。 最 后 ， 我 们 可 以 调用 predict 函 数 从 输 
入 特征 中 得 到 主 成 分 。 样 例 中 ， 我 们 输入 了 数据 集 的 第 一 行 ， 得 到 5 个 主 成 分 。 
4 扩展 


princomp 是 另外 一 个 主 成 分 分 析 函 数 ， 与 prcomp 上 函数 采用 奇异 值 分 解 方法 不 同 ，princomp 函 数 采 用 的 是 相关 和 矩阵 或 协 方差 矩阵 的 特征 值 计 算 方 法 。 一 般 应 用 中 更 习惯 使 用 prcomp 叉 数 ， 但 我 们 在 这 
里 也 会 对 princomp 函 数 进行 简单 介绍 : 


1) 调用 princomp 进 行 PCA 分 析 : 


> swiss.princomp = princomp (swiss, 
+ center = TRUE, 

+ Scale = TRUE) 

> swiss.princomp 

Call: 


princomp(x = swiss, center = TRUE, scale = TRUE) 


Standard deviations: 
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 
42.896335 21.201887 47.587978 43.687888 2.721105 


5 variables and 47 observations. 


2) 输出 相关 信息 : 


> summary(swiss.princomp) 
Importance of components: 


Comp.1 Comp.2 Comp.3 
Comp.4 Comp.5 


Standard deviation 42.8963346 21.2018868 7.58797830 
3.687888330 2.721104713 


Proportion of Variance 0.7770024 0.1898152 0.02431275 
0.005742983 0.003126601 


Cumulative Proportion 0.7770024 0.9668177 0.99113042 
0.996873399 1.000000000 


3) 调用 predict 国 数 得 到 输入 特征 的 主 成 分 : 


> predict(swiss.princomp, swiss[1,1) 
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 
Courtelary -38.95923 -20.40504 12.45808 4.713234 -1.46634 


除了 stats 包 中 的 prcomp 和 princomp 国 数 ， 我 们 还 可 以 使 用 psych 包 的 principal 函 数 进 行 主 成 分 分 析 : 


1) 首先 安装 和 导入 psych 包 : 


> install.packages("psych") 
> install.packages("GPArotation") 


> library (psych) 


2) 调用 principal 函 数 获取 主 成 分 : 
> Swiss.principal = principal(swiss, nfactors-5, rotate-"none") 
> swiss.principal 
Principal Components Analysis 
Call: principalí(r = swiss, nfactors = 5, rotate = "none") 


Standardized loadings (pattern matrix) based upon correlation 


matrix 

PC1 PC2 PC3 PC4 PCS h2 u2 
Agriculture -0.85 -0.27 0.00 0.45 -0.03 1 -6.7e-16 
Examination 0.93 -0.01 -0.04 0.24 0.29 1 4.4e-16 
Education 0.80 0.20 0.49 0.19 -0.23 1 2.2e-16 
Catholic -0.63 0.38 0.66 -0.06 0.17 1 -2.2e-16 
Infant.Mortality -0.15 0.90 -0.38 0.12 -0.03 1 -8.9e-16 


PC1 PCA PC3 PCS PCES 


SS loadings el LOIOEPRCOBNBBZ MeS Moly 
Proportion Var 0:53 0.21 026 G06 0-03 
Cumulative Var 0.53 0.74 0.90 0.97 1.00 
Proportion Explained 0.53 0.21 0.16 0.06 0.03 
Cumulative Proportion 0.53 0.74 0.90 0.97 1.00 


Test of the hypothesis that 5 components are sufficient. 


The degrees of freedom for the null model are 10 and the objective 
function was 2.13 


The degrees of freedom for the model are -5 and the objective 
function was 0 


The total number of observations was 347 with MLE Chi Square = 0 
with prob < NA 


Fit based upon off diagonal values - 1 


11.4 使 用 scree 测 试 确 定 主 成 分 数 


鉴于 我 们 仅仅 需要 利用 主 成 分 来 表示 原始 特征 的 大 多 数 方差 ， 因 此 既 可 以 使 用 Kaiser 方 法 、scree (RA) 测试 ， 也 可 以 依据 挑选 规则 使 用 解释 变量 比例 。 碎 石 测试 的 主要 目的 是 将 主 成 分 分 析 结 果 以 碎 
石 图 方式 表达 ， 并 从 图 中 找到 引起 曲线 斜率 变化 最 快 的 因素 。 本 节 将 展示 如 何 利用 碎 石 图 确定 主 成 分 数 。 


1. 准 备 

读者 需要 完成 上 节 中 的 操作 ， 准 备 好 主 成 分 对 象 并 将 其 存放 在 swiss.pca 变 量 中 。 
之 操作 

执行 以 下 操作 ， 通 过 碎 石 图 确定 主 成 分 个 数 。 


1) 使 用 screeplot 绘 制 条 形 图 : 


> Screeplot(swiss.pca, type-"barplot") 


swiss.pca 


"n 


以 条 形 图 方式 展现 的 碎 石 图 
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2) 使 用 screeplot 绘 制 折线 图 : 


> screeplot(swiss.pca, type-"line") 


swiss.pca 





以 折线 形式 展现 的 碎 石 图 


3. 原 理 


本 节 ， 我 们 展示 了 如 何 通过 碎 石 图 来 确定 主 成 分 数 。 碎 石 图 主要 包括 两 种 类 型 : 条 形 碎 石 图 和 折线 碎 石 图 。 从 以 上 两 个 图 都 能 看 出 ， 当 主 成 分 数 为 2 时 ， 和 斜率 变化 最 快 (拐点 ) 。 在 主 成 分 从 1 变 成 2 
时 ， 曲 线 坡度 最 陡 ， 然 后 逐步 趋 于 平坦 。 不 过 有 时 候 碎 石 图 的 变化 并 不 明显 ， 我 们 也 可 以 再 使 用 其 他 方法 (例如 Kaiser; 去 ) 来 确定 主 成 分 数 。 


4. 扩 展 


默认 地 ， 如 果 我 们 使 用 plot 函 数 处 理 已 生成 的 主 成 分 对 象 ， 也 可 以 用 碎 石 图 来 展示 。 更 多 有 关 screeplot 的 内 容 ， 请 参考 以 下 文档 : 
> help(screeplot) 
我 们 还 可 以 使 用 nfactors 以 并 行 分 析 非 图 形 方 式 做 Cattell 碎 石 来 测试 : 


> install.packages ("nFactors") 


» library (nFactors) 


> ev = eigen (cor (swiss)) 
> ap = parallel (subject=nrow (swiss) ,var=ncol (swiss),rep=100,cent=.05) 
> nS = nScree (x=ev$values, aparallel-ap$eigen$qevpea) 


> plotnScree (nS) 
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碎 石 测试 的 非 图 形 化 实现 


11.5 “使 用 Kaiser 方 法 确定 主 成 分 数 


除了 碎 石 测试 ， 我 们 还 可 以 使 用 Kaiser 测 试 法 来 确定 主 成 分 数 ， 该 方法 挑选 特征 值 大 于 1 的 因素 作为 主 成 分 。 本 节 将 展示 如 何 使 用 Kaiser 方 法 来 确定 主 成 分 数 。 
TES 
读者 应 该 确保 完成 前 述 章 节 提 及 的 操作 ， 并 准备 好 一 主 成 分 对 象 存 放 在 swiss.pca 中 。 
2. 操 作 
执行 以 下 操作 ， 使 用 Kaiser 方 法 确定 主 成 分 数 : 
1) 获得 swiss.pca 的 标准 差 : 
> Sswiss.pca$sdev 
[1] 1.6228065 1.0354873 0.9033447 0.5592765 0.4067472 


2) 从 swiss.pca 获 得 方差 : 


> swiss.pca$sdev ^ 2 


[1] 2.6335008 1.0722340 0.8160316 0.3127902 0.1654433 
3) 选择 方差 大 于 1 的 成 分 : 


> which(swiss.pca$sdev ^ 2» 1) 


[1] 1 2 


4) 使 用 碎 石 图 挑选 出 方差 大 于 1 的 主 成 分 : 


> screeplot (swiss.pca, type="line") 


> abline(h-z1, cols"red", lty= 3) 
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碎 石 图 中 方差 大 于 1 的 主 成 分 
3. 原 理 


我 们 也 可 以 使 用 Kaiser 方 法 来 确定 主 成 分 数 。 因 为 计算 出 的 主 成 分 对 象 包含 了 每 个 成 分 的 标准 差 信 息 ， 我 们 可 以 计算 标准 差 的 平方 根 ， 也 就 是 主 成 分 的 方差 。 从 计算 结果 可 知 ， 成 分 1 和 成 分 2 的 方差 值 
都 大 于 1， 因 此 可 以 断定 主 成 分 数 为 2 (成 分 1 和 成 分 2) 。 同 样 ， 我 们 也 可 以 在 碎 石 图 上 增加 一 条 红色 线段 (如 图 所 示 ) 来 标明 我 们 在 这 个 样 例 中 需要 保留 的 是 成 分 1 和 成 分 2。 


4 扩展 


为 了 确定 哪个 主 成 分 被 保留 ， 可 以 参考 : 


: Ledesma, R.D., and Valero-Mora, P. (2007) .Detetming the Number of Factors to Retain in EFA: an easy-to-use computer program for carrying out Parallel Analysis.Pratical 


Aessement, Reseatch&E valuation, 12 (2) , 1-11. 


11.6 AHERN REIR EETUSER 
为 了 找到 数据 和 变量 与 主 成 分 之 间 的 映射 关联 ， 我 们 可 以 使 用 主 成 分 分 析 散 点 图 (bioplot) ， 它 能 够 绘制 数据 及 其 原始 特征 在 前 两 个 主 成 分 上 的 投影 图 。 本 节 将 展示 如 何 使 用 bioplot 在 同一 张 图 上 绘 
制 变量 及 数据 。 
1. 准 备 
读者 应 该 确保 完成 前 述 章节 提 及 的 操作 ， 并 准备 好 一 个 主 成 分 对 象 将 其 存储 在 swiss.pca 变 量 中 。 
2. 操 作 
执行 以 下 操作 ， 生 成 一 个 主 成 分 分 析 散 点 图 : 


1) 使 用 成 分 1 和 成 分 2 绘制 散 点 图 : 


> plot(swiss.pca$x[,1], swiss.pca$x[,2], xlim=c(-4,4)) 


> text(swiss.pca$x[,1]1, swiss.pca$x[,2], rownames(swiss.pca$x), 
Cex=0.1; posz4, col="red") 
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PCA 结 果 中 前 两 个 成 分 的 散 点 图 
2) 如 果 读 者 希望 在 图 中 增加 新 的 特征 ， 可 以 利用 生成 的 主 成 分 对 象 绘制 主 成 分 分 析 散 点 图 : 


> biplot(swiss.pca) 


3. 原 理 


本 节 展 示 了 如 何 使 用 bioplot 绘 制 数据 及 其 原始 特征 在 前 两 个 主 成 分 上 的 投影 。 第 一 步 ， 我 们 证 实 确实 可 以 利用 前 两 个 主 成 分 绘制 散 点 图 。 更 进一步 地 ， 如 果 我 们 希望 在 同一 张 图 上 增加 新 的 特征 ， 可 以 
使 用 bioplot。 在 bioplot 图 中 ， 我 们 可 以 发 现 那些 在 农业 指标 上 得 分 较 高 而 在 教育 和 检查 这 两 项 指标 上 得 分 低 的 省 份 在 主 成 分 PC1 上 得 分 较 高 ; 而 在 婴儿 死亡 率 指标 上 得 分 较 高 ， 在 农业 指标 上 得 分 较 低 的 省 


份 在 主 成 分 PC2 上 得 分 较 高 。 
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A4 


除了 stats 包 中 的 biplot 函 数 ， 我 们 还 可 以 使 用 ggbiplot 函 数 。 不 过 CRAN 中 不 包含 这 个 包 ， 如 果 要 用 必须 首先 安装 和 导入 devtools 和 ggbiplot 这 两 个 包 。 


> install.packages("devtools") 


library (ggbiplot) 


V 


> g = ggbiplot(swiss.pca, obs.scale = 1, var.scale = 1, 
+ ellipse = TRUE, 
+ circle = TRUE) 


V 


print (g) 
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PCA 结果 ggbiplot 图 


11.7 ”使 用 MDS 进 行 降 维 
多 维 尺度 分 析 (Multidimensional Scaling, MDS) 技术 能 够 通过 图 形 方式 展示 多 个 对 象 之 间 的 相似 或 相 异 程度 (距离) ， 术 语 中 的 “多 维 ”是 指 M Ds 方 法 可 以 映射 到 一 维 、 二 维 或 者 多 维 空间 表达 对 
象 的 相对 距离 ， 一 般 常 使 用 一 维 或 者 二 维 空间 。 


MDS 方 法 分 成 计量 和 非 计 量 两 类 ， 其 中 计量 类 MDS 方 法 主要 考虑 如 何 保证 降 维 以 后 的 各 对 象 之 间 的 距离 尽 可 能 接近 它们 在 原始 空间 中 的 距离 ， 而 非 计量 类 MDS 方 法 则 假设 两 个 空间 中 对 象 的 距离 排名 
已 知 ， 且 变换 后 排名 不 变 。 本 节 将 展示 如 何 对 swiss 数 据 集 进行 MDS 降 维 处 理 。 


1. 准 备 
本 节 将 继续 使 用 swiss 数 据 集 作 为 数据 输入 源 。 
2. 操 作 
执行 以 下 操作 ， 使 用 计量 方法 完成 数据 集 的 多 维 尺 度 分 析 : 
1) 首先 ,选择 二 维 空 间 最 大 值 进 行 计量 MDS 分 析 : 
> swiss.dist =dist (swiss) 


> swiss.mds = cmdscale(swiss.dist, k=2) 


2) 将 swiss 数 据 以 二 维 散 点 图 方式 展现 : 


> plot(swiss.mds[,1], swiss.mds[,2], type = "n", main = "cmdscale 
(stats) ") 


> text(swiss.mds[,1], swiss.mds[,2]1], rownames (swiss), cex = 0.9, 
xpd = TRUE) 
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多 维 尺 度 分 析 结 果 的 二 维 散 点 图 展示 


3) 使 用 isoMDS 进 行 非 计 量 MDS 分 析 


> library (MASS) 

> swiss.nmmds = isoMDS (swiss.dist, k=2) 
initial value 2.979731 

iter 5 value 2.431486 

iter 10 value 2.343353 

final value 2.338839 


converged 
4) 将 分 析 结果 同样 以 二 维 散 点 图 方式 展现 : 


> plot (swiss .nmmndqsS$points，type = "n", main = "isoMDS (MASS)") 


> text(swiss.nmmds$points, rownames (swiss), cex = 0.9, xpd = TRUE) 


isoMDS (MASS) 
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isoMDS 对 象 的 二 维 散 点 图 展示 


5) 绘制 数据 的 Shepard 曲 线 : 


> swiss.sh = Shepard(swiss.dist, swiss.mds) 
» plot(swiss.sh, pch 2 ".") 


> lines(swiss.sh$x, swiss.sh$yf, type = "S") 
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3. 原 理 


MDS 支 持 以 图 形 方 式 来 展现 一 组 对 象 之 间 的 相似 情况 ， 更 确切 地 说 ， 是 MDS 能 够 将 对 象 映射 到 一 个 n- 维 空间 ， 利 用 数据 点 之 间 的 距离 来 表示 对 象 之 间 的 相似 性 。 通 常情 况 下 ， 我 们 会 选择 使 用 二 维 欧 
氏 空 间作 为 目标 空间 ， 但 是 也 可 以 选择 其 他 距离 或 者 更 高 维 的 空间 。 根 据 输入 和 矩阵 的 意义 不 同 ， 可 以 将 MDS 分 成 两 类 : 计量 MDS 和 非 计 量 MDS。 其 中 ， 计 量 MDs 方 法 使 用 基于 计量 的 输入 矩阵 ， 而 非 计量 
MDs 则 采用 不 可 计量 的 输入 矩阵。 


计量 MDS 也 常 被 称 为 主 坐标 分 析 ， 该 方法 首先 将 距离 转换 成 相似 度 ， 最 简单 的 形式 是 将 原始 的 线性 数据 点 通过 主 成 分 相似 度 分 析 映 射 到 一 个 子 空间 上 ， 或 者 通过 最 小 化 压力 值 7 2o 0 nr 
，d (k, ) 为 数据 点 xk 和 xl 之 间 的 距离 度量 ，d ”(k，1) 为 投影 点 x'kf0Xx'| 之 间 的 相似 性 度量 ) ， 在 相似 度 上 进行 非 线性 投影 。 我 们 可 以 将 数据 之 间 的 关系 展现 在 欧 氏 空间 中 。 


与 计量 MDS 方 法 使 用 可 计量 的 标 度 相反 ， 非 计量 M DS 适 合 于 顺序 尺度 的 数据 ， 算 法 仅 需 考虑 向 量 之 间 的 距离 排名 ， 通 过 一 个 单调 递增 函数 人 末 计 算 原始 距离 ， 并 且 将 距离 投影 到 能 够 保持 原来 排名 顺序 
的 新 值 上 。 规 范 化 公式 为 : “En ， 


本 节 展 示 了 如 何 使 用 计量 及 非 计量 MDS 方 法 来 对 swiss 数 据 集 进行 处 理 。 为 进行 计量 MDS 分 析 ， 我 们 首先 需要 从 swiss 数 据 集中 获得 对 象 间 的 距离 ， 在 此 过 程 中 ， 我 们 可 以 使 用 任意 距离 计算 方法 ， 只 要 
该 方法 能 够 得 到 数据 点 之 间 的 相似 / 相 异 度量 。 读 者 还 可 以 调用 cmdscale 函 数 来 完成 计量 多 维 尺度 分 析 。 样 例 中 k 值 被 设 定 为 2， 因 此 最 大 投影 维度 为 2， 我 们 还 可 以 将 数据 点 之 间 的 距离 以 图 形 方 式 展现 在 一 
个 二 维 散 点 图 上 。 


接 下 来 ， 我 们 通过 调用 isoM DSs 函 数 对 数据 进行 非 计 量 M DSs 分 析 ， 使 用 非 计 量 M Ds 分 析 时 ， 不 需要 计算 具体 的 距离 值 ， 仪 需要 考虑 数据 点 之 间 的 距离 先后 关系。 样 例 同样 采用 swiss 数 据 集 作为 输入 数据 
源 ， 投 影 到 二 维 空间 上 。 与 计量 MDs 分 析 的 例子 类 似 ， 我 们 也 可 以 将 分 析 结 果 以 二 维 散 点 图 表示 。 除 此 之 外 ， 样 例 还 使 用 了 shepard 曲 线 ， 利 用 Shepard 曲 线 我 们 能 够 展现 投影 后 的 距离 与 原始 距离 之 间 的 
匹配 程度 。 如 步骤 4 的 结果 图 所 示 ， 投 影 距 离 与 原始 距离 的 吻合 度 非常 高 。 


4. 扩 展 
将 MDSs 对 象 作为 一 个 图 形 对 待 是 另外 一 种 可 视 化 处 理 方法 ， 样 例 代 码 如 下 : 


> library(igraph) 


> swiss.sample = swiss[1:10,] 


> g = graph.full(nrow(swiss.sample)) 


> V(g)$label = rownames(swiss.sample) 
> layout = layout.mds(g, dist = as.matrix(dist(swiss.sample))) 


> plot(g, layout = layout, vertex.size = 3) 





MDS 对 象 的 图 形 化 展示 


读者 可 以 通过 将 投影 维度 绘制 在 一 个 散 点 图 中 这 样 的 方式 来 比较 MDS 和 PCA 两 种 方法 的 分 析 结 果 之 间 的 差异 ， 你 会 发 现 如 果 在 MDS 方 法 中 采用 欧 氏 距离 度量 ， 其 投影 维度 将 与 PCA 投 影 结果 完全 一 致 : 


> swiss.dist = dist (swiss) 
> swiss.mds = cmdscale(swiss.dist, k=2) 
> plot (swiss.mds[,1], swiss.mds[,2], type="n") 


> text (swiss.mds[,1], swiss.mds[,2], rownames (swiss), cex = 0.9, xpd = 
TRUE) 


> swiss.pca = prcomp (swiss) 
> text(-swiss.pca$x[,11,-swiss.pca$x[,2], rownames (swiss), 


一 .,COlz"blue", adj = c(0.2,-0.5),cex = 0.9, xpd = TRUE) 
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MDS 和 PCA 分 析 结 果 比 较 


11.8 使 用 SVD 进 行 降 维 


异 值 分 解 (Singular Value Decomposition, SVD) 是 矩阵 分 解 的 一 种 形式 ， 通 过 奇异 值 分 解 ， 可 以 将 一 个 矩阵 分 解 成 两 个 正 交 和 矩阵 和 一 个 对 角 和 矩阵 ， 原 始 和 矩阵 可 以 通过 分 解 变 换 后 的 三 个 和 矩阵 相 乘 
得 到 。SVD 可 以 帮助 去 掉 那 些 从 线性 代数 角度 观察 存在 线性 相关 的 元 余数 据 ， 因 此 可 以 被 应 用 在 特征 筛选 、 图 像 处 理 和 聚 类 等 很 多 领域 。 本 节 将 探讨 如 何 使 用 SVD 来 实现 降 维 


1. 准 备 

本 节 将 继续 使 用 swiss 数 据 集 作 为 输入 数据 源 。 
2 操作 

执行 以 下 操作 ， 利 用 SVD 完 成 降 维 : 


1) 在 swiss 数 据 集 上 进行 SVD 处 理 : 


> swiss.svd = svd(swiss) 


2) 在 图 中 展现 SVD 列 能 够 解释 的 变量 百分比 和 办 计 变 量 百 分 比 : 


> plot(swiss.svd$d 2/sum(swiss.svd$d^2), type="1", 


xlab=" Singular 
vector", ylab = "Variance explained") 
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被 解释 变量 百分比 


> plot(cumsum(swiss.svd$d^2/sum(swiss.svd$d^2)), type-"l", 
xlab-"Singular vector", ylab = "Cumulative percent of variance 
explained") 
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被 解释 变量 的 累积 百分比 


3) 只 使 用 奇异 向 量 重 构 数据 : 


> swiss.recon = swiss.svd$u[,1] %*% diag(swiss.svd$d[1l, 
length(1), length(1)) %*% tí(swiss.svd$v[,11) 


4) 在 图 中 比较 原始 数据 集 和 重 构 数据 集 间 的 差异 : 
> par (mfrow=c (1;2)) 


> image(as.matrix(swiss), main="swiss data Image") 


> image(swiss.recon, main-"Reconstructed Image") 


swiss data Image Reconstructed Image 
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原始 数据 集 和 重 构 数 据 集 比较 
3. 原 理 


SVD 是 一 类 用 来 分 解 实数 或 复数 矩阵 的 常见 方法 ， 详 细 地 说 ，mxn 的 矩阵 A 的 SVD 是 将 A 分 解 为 三 个 矩阵 的 乘积 A=UDV I。 其 中 ，U 为 一 个 mx m 的 正 交 和 矩阵 ; D 为 一 个 拥有 奇异 值 的 m xn 的 对 角 和 矩阵 ; 
V 为 一 个 nxm 的 正 交 和 矩阵。 
本 节 介 绍 了 利用 SVD 完 成 数据 降 维 的 过 程 。 首 先 ， 读 者 需要 先 调 用 svd 遂 数 处 理 swiss 数 据 集 获 得 分 解 和 矩阵 ， 然 后 可 以 根据 处 理 结果 绘制 两 个 图 : 能 够 利用 奇异 值 解释 的 变量 百分比 及 累积 变量 百分比 。 


从 结果 图 中 可 知 ， 第 一 奇异 值 能 够 解释 80% 的 变量 ， 如 果 想 比较 原始 数据 集 以 及 经 奇异 值 重 构 后 的 数据 集 之 间 的 差别 ， 可 以 调用 image 函 数 将 这 两 个 数据 集 放 在 一 起 展示 ， 从 比较 结果 可 知 ， 这 两 个 数 
据 集 的 相似 度 是 非常 高 的 。 


4. 扩 展 


之 前 我 们 曾 探讨 过 ，PCA 可 以 被 看 成 SVD 的 一 种 特例 ， 我 们 在 下 面 分 别 列 出 了 利用 SVD 处 理 swiss 数 据 集 得 到 的 正 交 向 量 以 及 从 prcomp 方 法 获得 的 旋转 量 ， 我 们 可 以 看 出 两 个 矩阵 基本 相同 : 


> svd.m = svd(scale(swiss)) 
> svd.m$v 

[,1] [,2] [,3] [,4] [,5] 
[1,] 0.52396452 -0.25834215 0.003003672 -0.8090741 20.06411415 
[2,] -0.57185792 -0.01145981 -0.039840522 -0.4224580 -0.70198942 
[3,] -0.49150243 40.19028476 0.539337412 -0.3321615 0.56656945 
[4,] 0.38530580 0.36956307 40.725888143 0.1007965 -0.42176895 
[5,] 0.09167606 0.87197641 -0.424976789 -0.2154928 0.06488642 
> pca.m = prcomp(í(swiss,scale-TRUE) 


» pca.m$rotation 


PEI PC2 PC3 PC4 
PC5 
Agriculture 0.52396452 -0.25834215 0.003003672 -0.8090741 
0.06411415 
Examination -0.57185792 -0.01145981 -0.039840522 -0.4224580 
-0.70198942 
Education -0.49150243 0.19028476 0.539337412 -0.3321615 
0.56656945 
Catholic 0.38530580 0.36956307 20.725888143 0.1007965 
-0.42176895 
Infant.Mortality 0.09167606 0.87197641 -0.424976789 -0.2154928 
0.06488642 


11.9 ”使 用 SVD 进 行 图 像 压 缩 


在 前 述 章节 ， 我 们 对 如 何 使 用 SVD 进 行 矩阵 分 解 展 开 了 探讨 ， 并 通过 分 解 矩 咋 相 乘 实现 了 数据 集 重 构 ， 和 矩阵 分 解 也 可 以 更 进一步 地 被 应 用 于 图 像 压 缩 领域 。 本 节 将 探讨 如 何 通 过 SVD 对 经 典 的 图 像 处 理 
材料 Lenna 图 进行 压缩 。 


1. 准 备 
本 节 ， 读 者 需要 提前 下 载 Lenna 图 (http;//www.ece.rice.edu/-wakin/images/lena512.bmp) ， 或 者 自 备 一 个 图 像 数 据 。 
2. 操 作 
执行 以 下 操作 ， 实 现 基于 SVD 的 图 像 压 缩 : 
1) 安装 和 导入 bmp 包 : 
> install.packages ("bmp") 
> library (bmp) 


2) 调用 read.bmp 函 数 将 Lenna 图 导入 为 数值 和 矩阵， 默认 文件 名 称 为 : lena512.bmp: 
> lenna = read.bmp("lena512.bmp") 


3) 旋转 和 绘制 图 像 : 


> lenna = t (lenna) [,nrow(lenna):1] 


> image (lenna) 
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Lenna 图 


4) 对 读 入 的 数值 矩阵 进行 SVD 操 作 ， 并 绘制 解释 方差 的 百分比 图 : 


> lenna.svd = svd(scale(lenna)) 


> plot(lenna.svd$d 2/sum(lenna.svd$d^2), type-"l", xlab-" Singular 
vector", ylab - "Variance explained") 
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5) 利用 压缩 后 的 维度 用 来 重 构图 像 : 


> length(lenna.svd$d) 
[1] 512 


6) 找到 能 够 解释 90% 以 上 变量 的 奇异 向 量 数据 点 : 


> min(which(cumsum(lenna.svd$d^2/sum(lenna.svd$d^2))» 0.9)) 


[1] 18 
7) 将 刚才 的 代码 封装 到 名 为 lenna_compression 的 函数 中 ， 并 使 用 该 函数 绘制 压缩 后 的 图 像 : 


> lenna compression = function(dim)( 
uszas.matrix(lenna.svd$u[, 1:dim]) 
v-zas.matrix(lenna.svd$v[, 1:dim]) 
dzas.matrix(diag(lenna.svd$d) [1:dim, 1:diml]) 
image (u%*%d%*%t (v)) 


+ + + + + 


} 


8) 也 可 以 使 用 18 个 向 量 重建 图 像 


> lenna compression(18) 





使 用 18 个 向 量 重 构 的 Lenna 图 


9) 获得 解释 变量 超过 99% 的 奇异 向 量 数据 点 : 


> min(which(cumsum(lenna.svd$d^2/sum(lenna.svd$d^2))» 0.99)) 
[1] 92 


» lenna compression(92) 





使 用 92 个 成 分 重 构 的 Lenna 图 


3. 原 理 


本 节 探 讨 了 如 何 使 用 SVD 进 行 图 像 压 缩 。 我 们 首先 使 用 bmp 包 将 Lenna 图 导入 到 R 会 话 中 ， 由 于 导入 时 图 像 发 生 了 旋转 ， 因 此 需要 将 其 再 旋转 回去 ， 然 后 调用 plot 浮 数 在 R 中 绘制 Lenna 图 (如 步骤 3) 的 
结果 图 所 示 ) 。 之 后 ， 再 利用 SVD 对 图 像 和 矩阵 进行 分 解 ， 并 根据 奇异 向 量 数 目 绘制 对 应 解释 变量 的 百分比 图 。 


从 分 析 结 果 可 以 得 知 ， 我 们 能 够 使 用 18 个 成 分 来 解释 90% 以 上 的 变量 ， 所 以 在 下 一 步 我们 便利 用 这 18 个 成 分 对 Lenna 图 进行 了 重 构 ， 并 编写 了 一 个 目的 在 于 通过 和 矩阵 乘法 重 构图 像 的 名 为 
lenna_compression 的 函数 。 函 数 输入 被 设 为 18 时 ， 我 们 得 到 了 一 个 模糊 的 边界 基本 可 见 的 Lenna 图 像 (如 步骤 8) 的 结果 图 所 示 ) 。 为 了 得 到 更 清晰 的 图 像 ， 我 们 发 现 当主 成 分 个 数 为 92 时 ， 其 能 解释 的 
变量 百分比 为 99， 因 此 我 们 将 lenna_compression 函 数 输入 改 为 92， 从 步骤 9) 的 结果 图 可 以 得 知 ， 相 比 仅 利 用 18 个 主 成 分 的 压缩 效果 ， 主 成 分 个 数 为 92 的 重建 效果 要 清晰 得 多 。 


4 扩展 


Lenna 图 是 图 像 压 缩 领 域 应 用 最 为 广泛 的 标准 测试 图 像 ， 有 关 该 图 像 的 更 多 说 明 ， 请 参考 : http://www.cs.cmu.edu/~chuck/lennapg/。 


11.10 ”使 用 SOMAP 进 行 非 线性 降 维 


ISOMAP 属 于 流 形 学 习 方 法 ， 它 支持 线性 空间 到 非 线性 数据 结构 的 转换 。 与 MDS 类 似 ，ISOMAP 也 能 够 以 图 形 方式 展现 对 象 之 间 的 相似 性 或 相 异 性 (距离) ， 不 过 由 于 数据 采用 非 线性 结构 表示 ， 在 
ISOMAP 方 法 中 使 用 几何 距离 度量 代替 了 在 MDS 中 使 用 的 欧 氏 距离 度量 。 本 节 将 探讨 如 何 使 用 ISOMAP 实 现 非 线性 降 维 。 


1. 准 备 


本 节 将 使 用 RnavGraphlmageData 包 的 digits 数 据 集 作为 输入 数据 源 : 


2. 操 作 


执行 以 下 操作 ， 使 用 ISOMAP 完 成 非 线 性 降 维 : 


1) 安装 和 导入 RnavGraphlmageData 和 vegan 包 : 


> install.packages ("RnavGraphImageData") 
> install.packages ("vegan") 
» library (RnavGraphImageData) 


» library(vegan) 
2) 导入 数据 集 digits: 
> data (digits) 
3) 旋转 并 绘制 图 像 


> sample.digit = matrix(digits[,3000],ncol = 16, byrow=FALSE) 
> image(t(sample.digit) [,nrow(sample.digit):1]1]) 
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digits 数 据 集中 的 样 例 
4) 从 数据 集中 随机 选择 300 个 数字 作为 样本 点 : 
> set.seed(2) 


> digit.idx = sample(1:ncol(digits),size = 600) 
> digit.select = digits[,digit.idx] 


5) 对 被 选择 的 数值 点 进行 变换 ， 调 用 vegdist 计 算 对 象 之 间 的 相 异 度 : 


> digits.Transpose = t(digit.select) 


> digit.dist = vegdist (digits.Transpose, method="euclidean") 


6) 调用 isomap 遂 数 进行 降 维 : 


> digit.isomap = isomap(digit.dist,k = 8, ndim=6, fragmentedOK = 
TRUE) 


> plot (digit.isomap) 
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ISOMAP 对 象 的 二 维 散 点 图 


7) 将 最 小 生成 树 整合 到 散 点 图 中 ， 用 红色 线段 标记 : 


> digit.st = spantree(digit.dist) 
> digit.plot = plot(digit.isomap, main-"isomap k=8") 
> lines(digit.st, digit.plot, colz"red") 
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与 最 小 生成 树 整 合 的 二 维 散 点 图 

3. 原 理 
ISOMAP 是 一 种 有 代表 性 的 等 距 映射 非 线性 降 维 方法 ， 如 果 将 计量 MDS 方 法 中 数据 点 间 成 对 的 欧 氏 距离 度量 蔡 换 为 邻接 图 间 的 测 地 距离 ， 就 可 以 将 SOMAP 当 做 计量 MDS 方 法 的 扩展 。 
ISOMAP 算 法 描述 可 以 分 成 四 步 : 首先 ， 确 定 每 个 点 的 邻近 点 ， 然 后 构建 邻接 图 ， 计 算 两 节点 间 的 最 短路 径 ， 最 后 ， 通 过 MDS 分 析 找到 数据 间 的 低 维 灌 入 。 
本 节 探讨 了 如 何 使 用 SOMAP 进 行 非 线性 降 维 。 首 先 ， 我 们 从 RnavGraphlmageData 中 导入 数值 数据 ， 然 后 从 中 选择 一 幅 图 像 旋转 后 显示 在 屏幕 上 ， 如 步骤 3) 中 图 显示 的 数字 3 对 应 的 手写 数字 图 像 


然后 ， 随 机 选择 300 个 数字 作为 ISOMAP 算 法 的 输入 数据 ， 转 换 后 计算 每 幅 图 像 的 距离 ， 当 数据 完成 预 处 理 ， 再 计算 对 象 间 的 两 两 距离 然后 降 维 。 样 例 调用 了 vegdist 函 数 计算 对 象 的 相 异 性 ， 距 离 度量 
方法 为 欧 氏 距离 。 算 法 再 使 用 SOMAP 对 digits 数 据 集 执 行 非 线 性 降 维 ， 维 度 集 为 6， 每 个 点 可 保留 的 最 短 相 异 数 为 8，fragment edOK 参 数 设 为 TRUE 使 得 最 大 连接 可 分 析 。 


最 后 ， 可 以 使 用 生成 的 ISOMAP 对 象 绘制 得 到 一 个 二 维 散 点 图 (步骤 6) ) ， 并 将 红色 的 最 小 生成 树 与 散 点 图 区 加 (步骤 7) ) 。 


4 扩展 


读者 还 可 以 使 用 RnavGraph 包 将 图 形 作 为 数据 浏览 的 基础 方式 来 实现 高 维 数据 ( 样 例 中 为 digit) 的 可 视 化 。 更 多 相关 信息 请 参 
Æ: http:;//www.icesi.edu.co/CRAN/web/packages/RnavGraph/vignettes/RnavGraph.pdf, 


下 面 介绍 调用 RnavGraph 包 在 图 形 中 实现 高 维 数 据 可 视 化 的 过 程 : 


1) 首先 ， 安 装 和 导入 RnavGraph 和 graph 包 : 


V 


install.packages ("RnavGraph") 
> source("http://bioconductor.org/biocLite.R") 


» biocLite("graph") 


V 


library (RnavGraph) 


2) 从 digit 数 据 集 中 创建 一 个 NG_data 对 象 : 


> digit.group - rep(c(1:9,0), each - 1100) 

> digit.ng data = ng data(name = "ISO digits", 

+ data = data.frame(digit.isomap$points), 

+ shortnames = paste('i',1:6, sep = ''), 

* group - digit.group[digit.idx], 

+ labels = as.character(digits.group[digit.idx])) 


3) 从 NG _data 中 创建 一 个 NG_graph 对 象 


2» V shortnames(digit.ng data) 


> G = completegraph(V) 

» LG -linegraph(G) 

> LGnot = complement (LG) 

> ng.LG = ng graph (name = "3D Transition", graph = LG) 

> ng.LGnot = ng graph (name = "4D Transition", graph = LGnot) 


4) 绘制 tk2d 图 : 


> ng.i.digits = ng image array gray('USPS Handwritten Digits', 
+ digit.select,16,16,invert = TRUE, 

+ img in row = FALSE) 

> 


vizDigitsl = ng 2d(data 
ng.i.digits) 


digit.ng data, graph - ng.LG, images - 


» vizDigits2 - ng 2d(data 
images - ng.i.digits) 


digit.ng data, graph - ng.LGnot, 


> nav = navGraph (data = digit.ng data, graph = list(ng.LG, 
ng.LGnot), viz - list(vizDigitsl, vizDigits2)) 
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5) 绘制 4D 转 换 图 : 


Selection: none all invert 


color: bg: 


siz& abs EIE rel: EIE 


deactivate reactivate 
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11.11 ”使 用 局 部 线性 诅 入 法 进行 非 线 性 降 维 


局 部 线性 嵌入 (Locally Linear Embedding, LLE) 算法 是 PCA 算 法 的 扩展 ， 它 通过 嵌入 高 维 空间 内 的 流 形 映射 到 低 维 空间 来 实现 数据 压缩 。 比 较 而 言 ，ISOMAP 是 一 种 全 局 性 的 非 线 性 降 维 方 法 ， 而 
LLE 主 要 是 局 部 线性 降 维 算 法 ， 算 法 假设 每 个 数据 点 可 以 由 其 k 个 近邻 点 的 线性 组 合 构 成 ， 映 射 后 能 够 保持 原来 的 数据 性 质 。 本 节 将 简单 介绍 如 何 使 用 LLE 来 处 理 S 形 曲线 数据 。 


1. 准 备 

本 节 将 使 用 lle 包 中 的 lle_scurve_data 中 的 数字 数据 作为 输入 数据 源 。 
2. 操 作 

执行 以 下 操作 ， 利 用 LLE 实 现 非 线性 降 维 : 


1) 安装 和 导入 lle 包 : 


> install.packages("lle") 
> library (lle) 


2) 从 lle 包 中 导出 lle_scurve_data 数 据 集 : 


> data( lle scurve data ) 


3) 调用 lle 函 数 处 理 lle_ scurve_data 数 据 集 : 


> X = lle scurve data 

» results - lle( X-X , m-2, k-12,  id-TRUE) 
finding neighbours 

calculating weights 

intrinsic dim: meanz2.47875, mode=2 


computing coordinates 


4) 调用 str 和 plot 函 数 检 测 结果 : 


> str( results ) 


List of 4 
$ Y : num [1:800, 1:2] -1.586 -0.415 0.896 0.513 1.477 ... 
SE : num [1:800, 1:3] 0.955 -0.66 -0.983 0.954 0.958 ... 


$ choise: NULL 
$ id i num LL8001 3 3 2 32.223 33 i. 


»plot( results$Y, main-"embedded data", xlab-expression(y[11), 
ylabzexpression(y[21) ) 


embedded data 





说 入 数据 的 2-D 散 点 图 


5) 调用 plot lle 函 数 展示 LLE 降 维 的 结果 : 


> plot lle( results$Y, X, FALSE, col-z"red", inter-TRUE ) 





LLE 处 理 结果 的 LLE 图 


3. 原 理 
LLE 是 一 种 非 线性 降 维 算法 ， 基 于 LLE 我 们 可 以 得 到 高 维 数据 在 低 维 空间 保持 原 有 数据 邻近 嵌入 关系 的 映射 。LLE 算 法 主要 可 分 成 以 下 三 步 : 首先 ， 计 算 每 一 个 数据 点 的 k 个 近邻 Xi; 然后， 计算 每 个 邻近 
点 的 权 值 ， 使 得 每 个 点 都 能 最 优 地 由 其 近邻 点 组 合 重 构 ， 即 残 差 和 最 小 ， 此 处 残 差 RSS (w) 定义 为 : ““ zx 1， 其 中 wj=0， 如 果 x 不 是 x 的 k 近 邻 点 ， 且 对 于 任意 i， L7; 最 后 ， 算 法 试图 找到 能 


够 由 权 值 矩 阵 W 最 佳 拟 合 的 向 量 Y， 代 价 函数 可 以 定义 为 : “> ， g, 2o A 


本 节 介 绍 了 使 用 LLE 进 行 非 线 性 降 维 的 过 程 。 首 先 ， 需 要 从 lle 包 导入 lle_scurve_data 数 据 集 ， 调 用 le 函数 处 理 数据 ， 将 保留 维度 数 设置 为 2， 邻 近 点 设 为 12， 参 数 id 值 为 TRUE， 在 结果 中 列 出 每 个 数据 
点 的 维度 。LLE 算 法 包括 三 个 步 又: 建立 数据 中 每 个 点 的 近邻 点 ; 然后 找到 每 个 样本 点 的 邻近 点 线性 组 合 权 值 ; 根据 权 值 矩阵 及 近邻 点 的 值得 到 数据 点 在 低 维 空间 的 坐标 。 


接 下 来 ， 我 们 还 可 以 调用 str 和 plot 函 数 来 验证 降 维 结果 。 函 数 str 的 返回 值 包括 X、Y、choice 和 1ID， 其 中 “X” 代表 输入 数据 ，“Y” 代表 财 入 数据 ，“choice” 代表 保 留 数据 的 索引 向 量 ， 子 集 选 择 
和 “ID” 代 表 输 入 数据 的 维度 。 遂 数 plot 能 够 输出 嵌入 数据 的 二 维 散 点 图 。 最 后 ， 我 们 调用 函数 plot_lle 将 分 析 结 果 以 图 形 方式 展现 ， 在 样 例 中 ， 将 参数 “inter” 的 值 设置 为 TRUE 以 激活 交互 模式 。 


4. 扩 展 


我 们 还 可 以 选择 RDRToolbox 包 实现 非 线 性 降 维 ， 该 算法 包 支 持 I SOMAP 和 LLE 算 法 ， 读 者 可 以 执行 以 下 操作 来 安装 RDRToolbox。 


> source("http://bioconductor.org/biocLite.R") 
> biocLite("RDRToolbox") 
> library (RDRToolbox) 


第 12 章 ”大 数据 分 析 (R 和 Hadoop) 


12.1 nT 


RHadoop 是 R 为 支持 Hadoop 大 数据 分 析 和 处 理 提供 的 算法 包 集 合 ， 在 介绍 如 何 安装 RHadoop 和 使 用 之 前 ， 我 们 需要 先 了 解 一 下 为 什么 要 基于 机 器 学 习 进行 大 数据 分 析 。 
在 前 述 章 节 中 ， 我 们 已 经 对 R 在 执行 数据 分 析 与 实现 机 器 学 习 领 域 的 应 用 有 所 了 解 。 传 统统 计 学 主要 关注 样本 数据 (小 数据 集 ) 分 析 ， 有 可 能 忽略 那些 发 生 概率 极 小 但 导致 不 确定 结果 的 事件 。 


顾客 和 商户 之 间 的 实时 交互 因 云 计 算 的 诞生 而 变 得 更 加 频繁 ， 因 此 机 器 学 习 的 研究 焦点 也 相应 地 转变 为 对 顾客 行为 的 精确 预测 ， 例 如 ， 商 家 能 够 基于 顾客 个 人 行为 结合 实时 预测 模型 提供 实时 个 人 推荐 
或 在 线 广告 。 


然而 当 数据 量 (例如 ， 所 有 在 线 用 户 的 行为 记录 ) 大 到 一 台 机 器 无 法 处 理 时 ， 我 们 只 能 求助 于 超级 计算 机 或 类 似 Hadoop 这 样 的 可 扩展 解决 方案 。Hadoop 是 目前 最 流行 的 一 种 开源 可 扩展 大 数据 处 理 基 
础 架构 ， 它 能 够 基于 集群 实现 并 行 数据 存储 和 计算 。RHadoop 是 R 和 Hadoop 的 结合 ， 它 的 诞生 使 R 具 备 了 Hadoop 的 可 扩展 特性 ， 为 提高 大 数据 的 分 析 和 处 理 带 来 了 便利 。RHadoop 主 要 包括 五 个 算法 


包 , 分 别 是 : 
.tmr: 为 R 和 MapReduce 的 交互 接口 ， 支 持 对 MapReduce API 的 调用 以 在 Hadoop 集 群 上 执行 MapReduce 人 任务。 如 果 和 希望 开发 一 个 R MapReduce 程 序 ， 我 们 只 需要 将 注意 力 放 在 对 mapb 和 teduce 函 数 的 设计 上 ， 


剩 下 的 和 扩展 相关 的 问题 可 以 交 给 Hadoop 自 行 解决 。 
.thdfs: 为 R 和 HDFS 的 交互 接口 ， 通 过 rhdfs 包 ， 能 够 在 R 中 调用 HDFS API 来 访问 存储 在 HDFS 中 的 数据 ，thdfs 的 操作 与 Hadoop shell 差 不 多 ， 因 而 用 户 可 以 很 容易 地 从 R 控 制 台 实现 对 HDFS 的 处 理 。 
. rhbase: 为 R 和 HBase 的 交互 接口 ，thbase 在 集群 中 的 分 布 和 对 Hbase 的 访问 都 是 通过 Thrift 服 务 器 完成 ， 读 者 可 以 使 用 thbase 操 纵 存 储 在 HBase 中 的 表格 ， 以 及 读 写 存储 在 HBase 中 的 数据 。 
. plyrmr: 是 对 MapReduce 的 高 级 抽象 ， 支 持 用 户 以 类 plyt 的 语法 实现 常规 数据 操作 ，plyrmr 包 大 大 降低 了 大 数据 处 理 的 学 习 曲 线 。 
.favto: 支持 用 户 在 R 中 读 写 avto 文 件 ， 使 得 R 能 够 与 HDFS 进 行 数据 交换 。 


本 章 将 从 配置 Hadoop 环 境 开始 ， 以 便 读者 能 安装 RHadoop。 同 时 说 明了 rmr、rhdfs 和 plyrmr 三 个 算法 包 的 安装 。 接 下 来 ， 我 们 将 介绍 使 用 rmr 在 R 中 执行 MapReduce， 通 过 rhdfs 操 纵 HDFS 文 件 以 及 
使 用 plyrmr 实 现 一 个 普通 的 数据 操作 。 此 外 ， 使 用 RHadoop 实 践 机 器 学 习 也 是 我 们 要 探讨 的 内 容 。 本 章 最 后 将 探讨 在 Amazon EC2 上 部 署 多 个 RHadoop 集 群 的 方法 。 


第 12 章 ”大 数据 分 析 (R 和 Hadoop) 


12.1 简介 


RHadoop 是 R 为 支持 Hadoop 大 数据 分 析 和 处 理 提供 的 算法 包 集 合 ， 在 介绍 如 何 安装 RHadoop 和 使 用 之 前 ， 我 们 需要 先 了 解 一 下 为 什么 要 基于 机 器 学 习 进 行 大 数据 分 析 。 
在 前 述 章 节 中 ， 我 们 已 经 对 R 在 执行 数据 分 析 与 实现 机 器 学 习 领 域 的 应 用 有 所 了 解 。 传 统统 计 学 主要 关注 样本 数据 (小 数据 集 ) 分 析 ， 有 可 能 忽略 那些 发 生 概率 极 小 但 导致 不 确定 结果 的 事件 。 


顾客 和 商户 之 间 的 实时 交互 因 云 计算 的 诞生 而 变 得 更 加 频繁 ， 因 此 机 器 学 习 的 研究 焦点 也 相应 地 转变 为 对 顾客 行为 的 精确 预测 ， 例 如 ， 商 家 能 够 基于 顾客 个 人 行为 结合 实时 预测 模型 提供 实时 个 人 推荐 
或 在 线 广告 。 


然而 当 数 据 量 (例如 ， 所 有 在 线 用 户 的 行为 记录 ) 大 到 一 台 机 器 无 法 处 理 时 ， 我 们 只 能 求助 于 超级 计算 机 或 类 似 Hadoop 这 样 的 可 扩展 解决 方案 。Hadoop 是 目前 最 流行 的 一 种 开源 可 扩展 大 数据 处 理 基 
础 架构 ， 它 能 够 基于 集群 实现 并 行 数 据 人 存储 和 计算 。RHadoop 是 R 和 Hadoop 的 结合 ， 它 的 诞生 使 R 具 备 了 Hadoop 的 可 扩展 特性 ， 为 提高 大 数据 的 分 析 和 处 理 带 来 了 便利 。RHadoop 主 要 包括 五 个 算法 
包 ， 分 别 是 : 
.tmr: 为 R 和 MapReduce 的 交互 接口 ， 支 持 对 MapReduce API 的 调用 以 在 Hadoop 集 群 上 执行 MapReduce 人 任务。 如 果 和 希望 开发 一 个 R MapReduce 程 序 ， 我 们 只 需要 将 注意 力 放 在 对 map 和 teduce 函 数 的 设计 上 ， 


剩 下 的 和 扩展 相关 的 问题 可 以 交 给 Hadoop 自 行 解决 。 
.thdfs: 为 R 和 HDFS 的 交互 接口 ， 通 过 thdfs 包 ， 能 够 在 R 中 调用 HDFS API 来 访问 存储 在 HDFS 中 的 数据 ，thdfs 的 操作 与 Hadoop shell 差 不 多 ， 因 而 用 户 可 以 很 容易 地 从 R 控 制 台 实现 对 HDFS 的 处 理 。 
. thbase: 为 R 和 HBase 的 交互 接口 ，thbase 在 集群 中 的 分 布 和 对 Hbase 的 访问 都 是 通过 Thrift 服 务 器 完成 ， 读 者 可 以 使 用 thbase 操 纵 存 储 在 HBase 中 的 表格 ， 以 及 读 写 存储 在 HBase 中 的 数据 。 
: plyrmr: 是 对 MapReduce 的 高 级 抽象 ， 支 持 用 户 以 类 plyt 的 语法 实现 常规 数据 操作 ，plyrmr 包 大 大 降低 了 大 数据 处 理 的 学 习 曲 线 。 
- tavto: 支持 用 户 在 R 中 读 写 avro 文 件 ， 使 得 R 能 够 与 HDFS 进 行 数据 交换 。 


本 章 将 从 配置 Hadoop 环 境 开 始 ， 以 便 读 者 能 安装 RHadoop。 同 时 说 明了 rmr、rhdfs 和 plyrmr 三 个 算法 包 的 安装 。 接 下 来 ， 我 们 将 介绍 使 用 rmr 在 R 中 执行 MapReduce， 通 过 rhdfs 操 纵 HDFS 文 件 以 及 
使 用 plyrmr 实 现 一 个 普通 的 数据 操作 。 此 外 ， 使 用 RHadoop 实 践 机 器 学 习 也 是 我 们 要 探讨 的 内 容 。 本 章 最 后 将 探讨 在 Amazon EC2 上 部 署 多 个 RHadoop 集 群 的 方法 。 


12.2 ”准备 RHadoop 环 境 


由 于 RHadoop 需 要 R 和 Hadoop 整 合 的 环境 ， 所 以 RHadoop 的 运行 环境 要 求 预 先 安装 好 R 和 和 Hadoop， 不 过 我 们 不 需要 安装 一 个 新 的 Hadoop 系 统 ， 可 以 直接 使 用 Cloudera QuickStart VM (VM 是 一 
个 免费 版 本 ) ， 它 包含 一 个 单 结 点 的 Apache Hadoop 集 群 和 R。 本 节 将 探讨 如 何 下 载 Cloudera QuickStart VM, 


1. 准 备 


Cloudera QuickStart VM 建 议 在 安装 了 VMware 或 VirtualBox 的 64 位 子 操作 系统 环境 中 运行 ，KVM 环 境 也 可 以 。 
如 果 读 者 选择 的 是 VMware，player 要 能 够 与 WorkSstation 8.x 或 者 更 高 的 系统 兼容 : player 4.x 或 者 更 高 版 本 ，ESXi 5.X 或 更 高 版 本 ， 或 者 Fusion 4.x 或 更 高 版 本 。 


注意 ， 启 动 VM 需 要 至 少 4GB 的 RAM ， 磁 盘 可 用 空间 不 小 于 3GB。 
2. 操 作 


执行 以 下 操作 ， 完 成 使 用 Cloudera QuickStart VM 构 建 Hadoop 环 境 : 


1) 访问 Cloudera QuickStart VM 网 站 http://www.cloudera.com/content/cloudera/en/downloads/quickstart vms/cdh-5-3-x.html (如 果 Cloudera 对 VM 进 行 了 升级 ， 读 者 可 能 也 需要 更 新 链 
接 ， 目 前 CDH 的 版 本 是 5.3) 。 
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Cloudera QuickStart VM 下 载 网 址 的 截屏 
2) 根据 读者 本 机 安装 的 系统 的 虚拟 机 平台 ， 选 择 合适 的 链接 (如 果 Cloudera 对 VMs 进 行 了 升级 ， 需 要 更 新 链接 ) 下 载 VM 文 件 : 
下 载 VMWare: 
https://downloads.cloudera.com/demo vm/vmware/cloudera-quickstart-vm-5.2.0-0-vmware.7z 
下 载 KVM : https;//downloads.cloudera.com/demo vm/kvm/cloudera-quickstart-vm-5.2.0-0-kvm.7z 
下 载 VirtualBox: https://downloads.cloudera.com/demo vmyvirtualbox/cloudera-quickstart-vm-5.2.0-0-virtualbox.7z 


3) 在 本 机 安装 了 虚拟 机 的 平台 上 启动 QuickStrat VM ， 可 以 在 几 分 钟 之 后 看 见 如 下 图 所 示 的 桌面 : 


** Applicatio s LJ File cdt view VM Tabs Hel | li * | c | i3 C gj | B) ex x 8 iE, cloudera-quickstart-wn-44.0-1-wmware de EP | — [5 xx !7 cloudera 
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Cloudera QuickStart VM 截屏 


4) 打开 终端 ， 输 入 hadoop， 屏 幕 将 显示 可 以 控制 hadoop 集 群 的 函数 列表 : 


[cloudera(àquickstart -]$ hadoop 
sage: hadoop [--config confdir] COMMAND 
where COMMAND is one of: 
fs run a generic filesystem user client 
version print the version 
jar «jar run a jar file 
checknative [-a|-h] check native hadoop and compression libraries availa 
Dpility 
distcp <srcurl> «desturl-2 copy file or directories recursively 
archive -archiveName NAME -p «parent path» «src»* «dest» create a hadoop 
rchive 
classpath prints the class path needed to get the 
Hadoop jar and the required libraries 
daemonlog get/set the Log level for each daemon 
Or 
CLASSNAME run the class named CLASSNAME 


ost commands print help when invoked w/o parameters. 
[clouderagquickstart -]$ B 





输入 hadoop 后 的 屏幕 截图 


5) 新 开 一 个 终端 ， 输 入 R， 进 入 R 环 境 ,检查 一 下 在 Cloudera QuickStart VM 环境 中 是 否 已 经 安装 好 了 R 3.1.1 版 本 ， 如 果 在 VM 中 找 不 到 相应 的 R 软 件 ， 可 以 键入 以 下 命令 安装 R: 


$ yum install R R-core R-core-devel R-devel 


3. 原 理 


我 们 可 以 使 用 Cloudera (VM 版 本 免费 ) 提供 的 Hadoop VM 应 用 程序 来 替代 一 个 需要 自己 安装 的 Hadoop 系 统 。QuickStart VM 能 够 在 CentOS 6.2 上 运行 并 提供 一 个 单 结 点 的 Apache Hadoop 集 
群 ，Hadoop Ecosystem 模 块 以 及 R 环 境 安装 ， 从 而 为 我 们 节约 了 学 习 如 何 安装 和 使 用 Hadoop 的 时 间 。 


QuickStart VM 要 求 64 位 的 子 操作 系统 ， 至 少 4GB 的 内 存 和 3GB 的 硬盘 空间 ， 虚 拟 机 系统 则 可 以 是 VMware、VirtualBox 或 KVM 中 的 任意 一 个 。 因 此 ， 如 果 读 者 不 能 在 某 些 硬件 上 安装 这 些 版 本 的 
VM， 作 为 替代 ， 也 可 以 使 用 Amazon 的 Elastic MapReduce， 我 们 将 在 本 章 的 最 后 小 节 探 讨 如 何在 EMR 中 准备 RHadoop 环 境 。 


配置 Cloudera QuickStart VM 非 常 简单 ， 从 相关 网 址 下 载 VM ， 然 后 任意 选择 VMware、VirtualBox 或 者 是 KVM 的 虚拟 环境 安装 镜像 文件 。 如 果 读 者 能 够 看 到 CentOS 的 桌面 ， 就 可 以 通过 在 终端 键入 
hadoop 来 测试 Hadoop 是 否 能 正常 工作 ， 键 入 R 以 判断 R 是 否 能 在 QuickStart VM 中 启动 。 


4 扩展 


除了 使 用 Cloudera QuickStart VM, ， 我 们 还 可 以 考虑 使 用 Hontonworks 或 MapR 提 供 的 Sandbox VM, 
Hontonworks Standbox 的 下 载 地 址 是 : 
http://hortonworks.com/products/hortonworks-sandbox/#install 

MapR Standbox 的 下 载 地 址 是 : 


https://www.mapr.com/products/mapr-sandbox-hadoop/download 


12.3 Zz3&rmr2 


rmr2 包 支持 用 户 在 Hadoop 集 群 上 利用 MapReduce 执 行 大 数据 的 处 理 和 分 析 。 为 了 实现 这 个 功能 ， 我 们 需要 在 每 个 任务 结 点 上 都 安装 R 和 rmr2。 本 节 将 探讨 如 何在 Hadoop 集 群 的 一 个 单独 的 结 点 上 安 
装 rmr2。 


1. 准 备 

读者 需要 确保 已 经 完成 前 述 小 节 的 相关 操作 ， 启 动 了 Cloudera QuickStart VM 虚 拟 机 ， 并 且 虚 拟 机 能 连通 网 络 ， 以 便 下 载 和 安装 rmr2 包 。 
2. 操 作 

执行 以 下 操作 ， 实 现在 QuickStart VM 上 安装 rmr2: 

1) 首先 ， 在 Cloudera QuickStart VM 上 打开 终端 。 


2) 将 当前 用 户 切 换 到 root， 并 以 root 身 份 进 入 R 会 话 : 


$ sudo R 


3) 在 开始 安装 rmr2 之 前 ， 安 装 其 他 依赖 包 : 


> install.packages(c("codetools", "Rcpp", "RJSONIO", "bitops", 
"digest", "functional", "stringr", "plyr", "reshape2", "rJava", 
"caTools")) 


4) 退出 R 会 话 : 


» q() 
5) 下 载 rmr-3.3.0 到 QuickStart VM 上 ， 如 果 Reuolution Analytics 升 级 了 rmr2 版 本 ， 可 能 需要 更 新 下 载 链接 : 


$ wget --no-check-certificate https://raw.githubusercontent.com/ 
RevolutionAnalytics/rmr2/3.3.0/build/rmr2 3.3.0.tar.gz 


6) f£QuickStart VM. 上 安装 rmr2: 


$ sudo R CMD INSTALL rmr2 3.3.0.tar.gz 


7) 最 后 ， 再 次 进入 R 会 话 ， 调 用 library 函 数 测试 库 安装 是 否 成 功 : 


$ 及 


» library(rmr2) 


3. 原 理 


为 了 能 够 在 Hadoop 集 群 上 执行 MapReduce， 我 们 需要 在 每 个 任务 结 点 都 安装 R 和 RHadoop。 本 节 展示 了 在 一 个 单独 的 Hadoop 集 群 结 点 安装 rmr2 包 的 过 程 。 首 先 ， 打 开 Cloudera QuickStart VM 的 
终端 ， 然 后 在 安装 rmr2 之 前 ， 以 root 身 份 打开 一 个 R 会 话 ， 安 装 其 他 依赖 包 。 


接 下 来 ， 当 所 有 依赖 包 都 已 经 安装 完毕 ， 退 出 R 会 话 ， 在 Linux shell 中 调用 wget 命 令 实现 从 Github 下 载 rmr-3.3.0 到 本 机 文件 系统 ， 然 后 开始 rmr2 的 安装 。 最 后 ,我们 可 以 进入 R 会 话 ， 并 调用 library 阔 
数 来 验证 包 的 安装 是 否 成 功 。 


4. 扩 展 


更 多 有 关 RHadoop 的 信息 以 及 最 近 更 新 ， 请 参考 GitHub 网 站 上 RHadoop 维 基 主 页 : https://github.com/RevolutionAnalytics/RHadoop/wiki 


12.4 Zz3&rhdfs 


rhdfs 包 为 R 和 HDFS 间 接口 ， 通 过 rhdfs， 用 户 可 以 在 R 控 制 台 访问 HDFS。 与 rmr2 包 类 似 ， 为 了 在 R 中 访问 HDFS 资 源 ， 我 们 也 需要 在 每 一 个 任务 结 点 都 安装 rhdfs 包 。 本 节 将 探讨 如 何在 Cloudera 
QuickStart VM 中 安装 rhdfs。 


1. 准 备 
读者 应 确保 完成 前 述 章节 要 求 ， 启 动 Cloudera QuickStart VM 并 在 VM 环 境 中 连通 网 络 ， 以 便 下 载 和 安装 rhdfs 包 。 
2. 操 作 
执行 以 下 操作 完成 rhdafs 安 装 : 
1) 首先 ,我们 需要 从 GitHub 上 下 载 rhdafs 1.0.8， 如 果 Revolution Analytics 升 级 了 rhdfs 版 本 ， 可 能 需要 更 新 其 下 载 链接 : 


$wget --no-check-certificate https://raw.github.com/ 
RevolutionAnalytics/rhdfs/master/build/rhdfs 1.0.8.tar.gz 


2) 在 命令 行 环境 下 安装 rhdfs: 


$ sudo HADOOP CMD=/usr/bin/hadoop R CMD INSTALL rhdfs 1.0.8.tar. 
gz 


3) 配置 JAVA_HOME， 注意 JAVA_HOME 的 配置 方法 要 依赖 于 具体 的 VM 版 本 : 


$ sudo JAVA HOME-/usr/java/jdk1.7.0 67-cloudera R CMD javareconf 


4) 配置 系统 环境 完成 rhdfs 的 初始 化 ， 如 果 读 者 使 用 的 Quickstart VM 版 本 不 同 ， 可 能 需要 更 新 安装 环境 : 


$ R 
> Sys.setenv(HADOOP CMD="/usr/bin/hadoop") 


> Sys.setenv(HADOOP STREAMING-"/usr/lib/hadoop-mapreduce/hadoop- 
streaming-2.5.0-cdh5.2.0.jar") 


> library (rhdfs) 
» hdfs.init() 


3.538 
rhdfs 包 提供 了 相关 函数 使 得 用 户 能 够 在 R 环 境 中 管理 HDFS9， 与 rmr2 包 类 似 ， 我 们 也 必须 将 rhdfs 包 安装 在 每 一 个 任务 结 点 ， 这 样 才能 够 通过 R 控 制 台 访问 HDFS。 
要 安装 rhdfs， 我 们 首先 需要 从 GitHub 下 载 相 应 rhdfs 安 装 文件 ， 然 后 通过 HADOOP_CMD 来 完成 rhdfs 安 装 。 必 须 通过 javareconf 命 令 ， 才 能 使 R 配 置 得 到 Java 的 支持 。 
接 下 来 ， 可 以 访问 和 配置 R， 这 些 配置 信息 都 放 在 了 HADOOP_CMD 和 HADOOP_STREAMING 中 。 我 们 还 可 以 通过 rhdfs.init 函 数 对 rhdfs 进 行 初始 化 ， 然 后 就 可 以 开始 通过 rhdfs 来 控制 HDFS。 
4. 扩 展 
. 我 们 可 以 在 Linux shell 中 调用 which hadoop 命 令 来 查看 HADOOP_CMD 变 量 的 位 置 ， 在 大 多 数 Hadoop 系 统 中 ， 该 变量 会 位 于 /usr/bin/hadoop 目 录 下 。 
: 对 于 HADOOP_STREAMING 变 量 的 位 置 ，JAR 流 文件 通常 被 放置 在 /usr/lib/hadoop-mapteduce/ 目录 下 。 如 果 读 者 在 本 机 的 Linux 系 统 找 不 到 该 目录 ， 可 以 通过 locate 命 令 来 寻找 JAR 流 文件 : 


$ sudo updatedb 


$ locate streaming | grep jar | more 


12.5 在 rhdfs 中 操作 HDFS 


rhdfs 包 是 Hadoop 和 R 的 接口 ， 它 支持 通过 后 端 调用 HDFS API 实 现 对 HDFS 的 操作 ， 使 得 我 们 能 够 在 R 控 制 台 非常 方便 地 对 HDFSs 进 行 操 作 。 本 节 将 探讨 如 何 调用 rhdfs 函 数 来 操作 HDFs。 
1. 准 备 

要 完成 本 节操 作 ， 读 者 需 完 成 上 节 的 内 容 在 R 中 完成 rhdfs 的 安装 ， 并 且 通 过 hdfs.init 函 数 验 证 HDFS 的 初始 化 。 
2. 操 作 


执行 以 下 操作 以 实现 对 HDFS 文 件 的 读 写 : 


1) 初始 化 rhdfs 包 : 


> Sys.setenv(HADOOP CMD="/usr/bin/hadoop") 


> Sys.setenv(HADOOP STREAMING-"/usr/lib/hadoop-mapreduce/hadoop- 
streaming-2.5.0-cdh5.2.0.jar") 


» library(rhdfs) 
* pdfs. inte (0 


2) 按 如 下 步骤 实现 对 HDFS 中 文件 的 读 写 操作 : 
a hdfs.put: Copy a file from the local filesystem to HDFS: 
» hdfs.put('word.txt', *'./*') 


2 hdfs.1s: Read the list of directory from HDFS: 
» hd£s.1s('./*') 

a hdfs.copy: Copy a file from one HDFS directory to another: 
» hdfs.copy('word.txt', 'wordcnt.txt') 


3 M hdfs.move : Move a file from one HDFS directory to another: 


» hdfs.move('wordcnt.txt', './data/wordcnt.txt') 


a hdfs.delete:Delete an HDFS directory from R: 
> hdfs.delete('./data/') 


2 |hdfs.rm Delete an HDFS directory from R: 
= hdfs.rm('./data/') 


J hdfs.get: Download a file from HDFS to a local filesystem: 
> hdfs.get(word.txt', '/home/cloudera/word.txt') 


3 hdfs.rename: Rename a file stored on HDFS: 
hdfs.rename('./test/ql.txt','./test/test.txt') 


a hdfs.chmod: Change the permissions of a file or directory: 


> hdfs.chmod('test', permissions- '777') 
a hdfs.file.info:Read the meta information of the HDFS file: 


» hdfs.file.info('./') 


3) SHDFSYXf1t: 


s £ bdgraTfllai"IrIs.LtxL","w"] 
» data(iris) 

» hdfs.write(iris,f) 

» hdfs.close(f) 


4) 读 HDFS 文 件 : 


w £ = hdEm.Eile[("iris.ExE", "r") 
> dfserialized = hdfs.read(f) 


> df = unserialize (dfserialized) 


> hdfs.close(f) 


3. 原 理 
本 节 展 示 了 使 用 rhdfs 包 操作 HDFS 的 过 程 。 通 常 ， 我 们 可 以 通过 Hadoop shell 来 读 写 HDFS， 但 如 果 是 在 R 环 境 下 访问 HDFS， 就 可 以 使 用 rhdfs 包 来 完成 。 
在 开始 使 用 rhdfs 包 之 前 ,我 们 必须 先 调用 hdfs.init () 命令 对 其 初始 化 ， 然 后 才能 够 通过 rhdfs 提 供 的 函数 实现 对 HDFs 的 读 写 操作 。 


除了 直接 操作 HDFS 文 件 ， 我 们 还 可 以 通过 hdfs.read 和 hdfs.write 命 令 实现 HDFS 文 件 流 的 转换 。 因 此 我 们 还 展示 了 使 用 hdfs.write 命 令 将 R 格 式 数 据 框架 写 入 到 名 为 irir.txt 的 HDFS 文 件 的 过 程 。 在 最 后 
部 分 ， 我 们 则 通过 hdfs.read 函 数 和 unserialize 函 数 实现 了 对 写 操 作 的 逆 处 理 。 


4 扩展 


要 完成 rhdfs 的 初始 化 ， 我 们 必须 要 先 在 系统 环境 中 设置 好 HADOOP_ CMDXUHADOOP STREAMING 变量 。 为 了 避免 每 次 使 用 rhdfs 都 要 配置 这 两 个 变量 ， 可 以 将 配置 要 求 存放 在 .rprofile 文 件 中 ， 因 此 
每 次 启动 一 个 R 会 话 ， 系 统 就 会 自动 载 入 配置 要 求 。 


12.6 在 RHadoop 中 解决 单词 计数 问题 


在 本 节 将 通过 处 理 一 个 单词 计数 问题 来 展示 MapReduce 的 工作 原理 ， 该 样 例 要 求 对 给 定 输入 集中 每 个 单词 出 现 的 次 数 进 行 统计 。 本 节 将 探讨 如 何 通 过 rmr2 包 来 完成 该 任务 。 
1. 准 备 

本 节 需 要 准备 一 个 输入 文件 作为 单词 计数 程序 的 输入 ， 用 户 可 以 从 以 下 地 址 下 载 样 例 数据 : https;//github.com/ywchiu/ml R cookbook/tree/master/CH12, 
2. 操 作 

执行 以 下 操作 完成 单词 计数 程序 : 

1) 首先 ,我 们 需要 配置 好 系统 环境 ， 并 将 rmr2 和 rhdfs 装 载 到 R 环 境 中 ， 如 果 读 者 使 用 的 QuickStart VM 版 本 不 同 ， 可 能 需要 更 新 相应 的 JAR 文 件 : 


> Sys.setenv(HADOOP CMD="/usr/bin/hadoop") 


> Sys.setenv(HADOOP STREAMING-"/usr/lib/hadoop-mapreduce/hadoop- 
streaming-2.5.0-cdh5.2.0.jar ") 


» library(rmr2) 
» library(rhdfs) 
= hdEm.inibl) 


2) 在 HDFS 上 创建 一 个 目录 ， 将 输入 文件 放 到 新 创建 的 目录 下 : 


> hdfs.mkdir("/user/cloudera/wordcount/data") 


> hdfs.put("wc input.txt", "/user/cloudera/wordcount/data") 


3) 创建 一 个 map 遂 数 : 


> map = function(.,lines) { keyval( 
+ unlist( 

- strsplit( 

- x = lines, 

- EDIIE m *"ogtp 

+ 1)) 


4) 创建 一 个 reduce 国 数 : 


> reduce = function(word, counts) ( 


一 keyval(word, sum(counts)) 
+} 


5) 调用 map 函 数 完成 单词 计数 : 


'wordcount' 
file.path(hdfs.root, 'data') 


» hdfs.root 
» hdfs.data 


> hdfs.out = file.path(hdfs.root, 'out') 


> wordcount = function (input, output-NULL) ( 


+ mapreduce(input-input, output-output, input.format-"text", 
map-map, 


+ reduce-zreduce) 


E} 


> out = wordcount (hdfs.data, hdfs.out) 


6) 输出 出 现 次 数 最 多 的 10 个 单词 : 


> results = from.dfs(out) 


> results$key[order(results$val, decreasing = TRUE)]I1:10] 


3. 原 理 


本 节 探 讨 了 使 用 rmr2 包 来 实现 单词 计数 任务 。 首 先 ， 我 们 需要 配置 好 系统 环境 并 将 rhdfs 和 rmr2 装 入 R， 然 后 将 指定 的 单词 计数 程序 通过 hdfs.put 函 数 从 本 地 文件 系统 装 入 到 HDFS 目 


录 /user/cloudera/wordcount/data 下 。 


接 下 来 ,我们 开始 实现 MapReduce 程 序 。 通 常 ，MapReduce 程 序 被 分 成 map 和 reduce 两 部 分 。 在 map 闷 数 中 ， 我 们 首先 使 用 strsplit 销 数 将 每 一 行 分 成 单词 ， 由 于 str split 函 数 返回 单词 列表 ， 可 以 使 
用 unlist 函 数 将 结果 处 理 成 字符 向 量 。 最 后 ， 返 回 键 - 值 组 合 ， 每 个 单词 代表 一 个 键 ， 出 现 一 次 代表 一 个 值 。 当 reduce 消 数 接收 到 从 map 遂 数 返回 的 键 - 值 组 合 ，reduce 函 数 再 计算 各 子 任务 计数 的 总 和 并 返 
回 每 个 单词 (或 键 ) 出 现 次 数 的 总 和 |。 


当 我 们 实现 了 map 和 reduce 函 数 后 ， 就 可 以 通过 mapreduce 函 数 提交 任务 结果 。 通 常 ，mapreduce 函 数 需要 四 个 输入 参数 ， 分 别 为 HDFS 输 入 路 径 、HDFs 输 出 路 径 、map 函 数 和 reduce 函 数 。 在 本 
节 样 例 中 ， 我 们 将 输入 路 径 指 定 为 wordcount/data， 输 出 路 径 为 wordcount/out，map 函 数 为 map，reduce 函 数 为 reduce， 然 后 将 mapreduce 函 数 封装 在 wordcount 函 数 中 。 最 后 ， 调 用 wordcount 浮 
数 并 将 输出 路 径 存 放 在 变量 out 中 。 


我 们 还 可 以 调用 from.dfs 函 数 将 HDFS 数 据 装载 到 results 变 量 中 ， 这 样 results 变 量 中 就 包括 了 每 个 单词 及 其 出 现 次 数 的 信息 ， 最 后 我 们 再 从 results 变 量 中 输出 出 现 次 数 排名 前 10 的 单词 。 
4 扩展 


本 节 探 讨 了 如 何 写 一 个 R MapReduce 程 序 来 解决 单词 计数 问题 。 如 果 读 者 对 编写 一 个 原始 的 Java MapReduce 程 序 感 兴 趣 ， 可 以 参考 以 下 文档 : http://hadoop.apache.org/docs/current/hadoop- 


mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html, 


12.7 ”比较 R MapReduce 程 序 和 标准 R 程 序 的 性 能 差别 


如 果 读 者 对 Hadoop 工 作 方式 不 太 熟 悉 ， 可 能 很 容易 将 Hadoop 看 成 大 数据 处 理 方法 的 一 种 优化 ， 也 许 有 些 读者 还 会 认为 Hadoop 能 够 在 几 毫 秒 的 时 间 内 返回 任意 大 小 的 数据 集 的 处 理 结果 。 本 节 将 对 R 
MapReduce 程 序 和 标准 的 R 程 序 的 性 能 进行 比较 ， 从 而 发 现 Hadoop 的 性 能 在 某 些 时 候 可 能 并 不 像 我 们 期 望 的 那样 好 。 


1. 准 备 

在 本 节 ， 读 者 需要 完成 上 节 的 操作 内 容 ， 先 在 R 环 境 中 安装 好 rmr2 包 。 
2. 操 作 

执行 以 下 操作 完成 R MapReduce 程 序 和 标准 R 程 序 的 性 能 比较 : 


1) 实现 一 个 标准 R 程 序 完 成 对 1 到 100000 内 数 的 平方 计算 : 


> a.time = proc.time() 
> small.ints2=1:100000 
> result.normal = sapply(small.ints2, function(x) x 2) 


> proc.time() - a.time 


2) 再 实现 一 个 R MapReduce 程 序 完 成 同样 的 功能 : 


> b.time = proc.time() 
> small.ints- to.dfs(1:100000) 


> result = mapreduce(input = small.ints, map = function(k,v) 
cbind(v,v^2)) 


» proc.time() - b.time 


3. 原 理 


本 节 实 现 两 个 程序 求 数 的 平方 。 程 序 1 采用 的 是 标准 R 函 数 ，sapply， 计 算 1 到 100000 内 每 个 数 的 平方 。 为 了 计算 程序 的 运行 时 间 ， 我 们 首先 在 a.time 中 存 下 程序 开始 执行 的 时 间 点 ， 然 后 再 用 程序 运行 
结束 的 时 间 点 减 掉 a.time， 通 常 得 到 的 运行 时 间 不 会 超过 10 秒 。 程 序 2 借 助 rmr2 包 以 R MapReduce 方 式 完成 同一 任务 ， 同 样 记 下 程序 运行 所 需 时 间 ， 可 以 发 现 一 般 情况 下 R MapReduce 类 程序 需要 几 分 钟 
才能 完成 计数 。 


从 比较 结果 可 以 得 知 在 处 理 小 数据 集 时 ， 标 准 R 程 序 的 效率 要 优 于 R MapReduce 程 序 ， 原 因 在 于 Hadoop 系 统 通常 会 需要 花费 一 定时 间 用 于 启动 系统 服务 、 协 调 不 同 进程 之 间 的 任务 、 从 每 个 数据 结 点 
取 数 据 。 因此， 一 个 MapReduce 程 序 通常 需要 几 分 钟 或 几 个 小 时 来 完成 这 些 初始 工作 。 因 此 ， 如 果 我 们 可 以 把 数据 全 部 放 到 内 存 中 ， 我 们 就 应 该 采用 标准 的 R 程 序 来 解决 问题 ， 否 则 ， 如 果 数 据 集 太 大 了 无 
法 一 次 在 内 存 中 处 理 完 ， 我 们 则 可 以 选择 使 用 MapReduce 来 处 理 该 问题 。 


4 扩展 


如 果 要 检验 一 个 任务 是 否 能 够 在 Hadoop 中 正确 有 效 地 执行 ， 我 们 可 以 启动 一 个 MapReduce 测 试 平台 对 其 进行 评估 : 


$ hadoop jar /usr/lib/hadoop-0.20-mapreduce/hadoop-test.jar 
mrbench -numRuns 50 


12.8 测试 和 调试 rmr2 程 序 


由 于 一 个 MapReduce 程 序 有 可 能 需要 从 几 分 钟 到 几 小 时 不 等 的 运行 时 间 ， 因 此 对 程序 的 测试 和 调试 就 变 得 非常 重要 。 本 节 将 探讨 一 些 解决 MapReduce 程 序 


1. 准 备 


读者 需要 事先 在 R 环 境 中 安装 好 rmr2 包 。 


2. 操 作 


执行 以 下 操作 ， 实 现 对 R 程 序 的 测试 和 调试 : 


1) 在 rmr.options 中 将 backend 属 性 指定 为 本 地 : 


> rmr.options(backend = 'local') 


2) 运行 上 一 节 中 提 到 的 数字 的 平方 和 MapReduce 程 序 : 


> b.time 


= proc.time() 


> sgmall.ints- to.dfs(1:100000) 


» result 


= mapreduce (input = small.ints, map = function(k,v) 


cbind(v,v^2)) 


» proc.time() - b.time 


3) 如 果 读 者 希望 输出 MapReduce 程 序 中 变量 的 结构 信息 ， 可 以 调用 rmr.str 国 数 : 


> out = mapreduce(to.dfs(1), map = function(k, v) rmr.str(í(v)) 
Dotted pair list of 14 


$ : language mapreduce(to.dfs(1), map - function(k, v) rmr. 
strí(v)) 

$ : language mr (map = map, reduce = reduce, combine = 
combine, vectorized.reduce, in.folder - if (is.list(input)) ( 
lapply(input, to.dfs.path) ... 


$ : language c.keyval(do.call(c, lapply(in.folder, 
function(fname) ( kv - get.data(fname) ... 


$ : language do.call(c, lapply(in.folder, function(fname) ( 
kv = get.data(fname) ... 


$ : language lapply(in.folder, function(fname) ( kv = get. 
data(fname) ... 


$ : language FUN("/tmp/Rtmp813BFJ/file25af6e85cfde"[[1L]], ...) 


$ : language unname(tapply(1:lkv, ceiling ((1:1kv)/(1kv/ (object. 
size(kv)/10^6))), function(r) { kvr - slice.keyval(kv, r) ... 


$ : language tapply(1:lkv, ceiling ((1:1kv)/(1lkv/ (object. 
size(kv)/10^6))), function(r) ( kvr = slice.keyval(kv, r) ... 


$ : language lapply(X - split(X, group), FUN - FUN, ...) 
$ : language FUN(X[[1L1], ...) 

$ : language as.keyval(map(keys(kvr), values (kvr))) 

$ : language is.keyval (x) 

$ : language map (keys (kvr), values(kvr)) 

$ :length 2 rmr.str (v) 


..- attr(*, "srcref")sClass 'srcref' atomic [1:8] 1 34 1 58 34 
58 11 


0.2. ..- attr(*, "srcfile")zClasses 'srcfilecopy', 'srcfile' 


«environment: 0x3f984f0» 
v 


num 1 


\ 一 /一 
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问题 的 技巧 。 


3. 原 理 


本 节 介 绍 了 一 些 MapReduce 程 序 的 测试 及 调试 技巧 。 我 们 首先 从 测试 本 地 模式 的 MapReduce 程 序 方法 开始 ， 如 果 读 者 希望 在 伪 分 布 模式 或 完全 分 布 模式 下 运行 MapReduce 程 序 ， 则 需要 人 花费 几 分 钟 
或 几 小 时 不 等 的 时 间 完 成 任务 ， 其 中 可 能 包括 MapReduce 程 序 运行 错误 而 造成 的 时 间 的 浪费 ， 因 此 可 以 将 rmr.options 中 的 backend 属 性 设置 为 本 地 模式 ， 使 得 程序 以 本 地 模式 运行 ， 减 少 运行 的 时 间 。 


另外 一 个 调试 方法 则 是 列 出 map 或 reduce 函 数 中 所 有 变量 的 信息 。 我 们 可 以 在 R 程 序 中 ， 使 用 str 函 数列 出 单个 变量 的 详细 信息 ; rmr2 包 也 提供 了 名 为 rmr.str 的 函数 允许 控制 台 输出 单个 变量 的 详细 信 
息 。 在 本 节 样 例 中， 我们 使 用 了 rmr.str 来 输出 MapReduce 程 序 中 变量 的 信息 。 


4 扩展 


. 如 果 读 者 对 tmrt2 包 中 option 属 性 的 设置 方法 感 兴趣 ， 可 以 使 用 help 函 数 参 考 以 下 文档 : 


> help(rmr.options) 


12.9 zJplyrmr 


plyrmr 包 为 用 户 提供 了 一 些 常 见 操作 (如 plyr 或 reshape2) 使 得 我 们 能 够 很 容易 地 通过 MapReduce 框 架 对 数据 进行 操作 。 本 节 将 介绍 如 何在 Hadoop 系 统 中 安装 plyrmr 包 .。 
1. 准 备 

读者 应 该 确保 已 经 启动 了 Cloudera QuickStart VM 并 且 VM 能 够 联网 ， 而 且 也 安装 了 rmr2 包 。 
2. 操 作 


执行 以 下 操作 完成 在 Hadoop 系 统 中 安装 plyrmr 包 : 


1) 在 Linux shell 中 安装 libxml2-devel 和 curl-devel: 


$ yum install libxml2-devel 


$ sudo yum install curl-devel 
2) 进入 R 会 话 ， 安 装 依赖 包 : 


$ sudo R 

» Install.packages(c(" Rcurl", "httr"), dependencies - TRUE 
» Install.packages("devtools", dependencies - TRUE) 

» library(devtools) 

» install github("pryr", "hadley") 


> install.packages(c(" R.methodsS3", "hydroPSO"), dependencies = 
TRUE) 


» q() 
3) 下 载 plyrmr 0.5.0 并 安装 到 Hadoop VM 上 ， 如 果 Revolution Analytics 升 级 了 plyrmr 的 版 本 ， 读 者 可 能 需要 更 新 下 载 链接 : 


$ wget -no-check-certificate https://raw.github.com/ 
RevolutionAnalytics/plyrmr/master/build/plyrmr 0.5.0.tar.gz 


$ sudo R CMD INSTALL plyrmr 0.5.0.tar.gz 


4) 验证 安装 是 否 成 功 : 


$ 及 
> library (plyrmr) 


3. 原 理 


除了 使 用 rmr2 包 写 入 R MapReduce 程 序 ， 我 们 还 可 以 通过 plyrmr 包 实现 数据 处 理 。plyrmr 包 的 作用 与 Hadoop 生 态 系统 中 的 hive 和 和 pig 类似， 可 以 将 其 看 成 对 MapReduce 程 序 的 抽象 。 因 此 ， 我 们 可 
以 不 需要 通过 map 冰 数 和 reduce 遂 数 就 能 够 以 plyr 形 式 完成 一 个 R MapReduce 程 序 。 


要 安装 plyrmr， 必 须 首先 调用 yum install 命 令 安装 libxml2-devel 和 curl-devel 包 ， 然 后 进入 R 会 话 中 ， 安 装 依赖 包 ， 最 后 ， 从 Github 上 下 载 文件 将 plyrmr 安 装 到 R 中 。 
4 扩展 


如 果 读 者 希望 了 解 更 多 有 关 plyrmr 的 知识 ， 可 以 调用 help 函 数 并 参考 以 下 文档 : 


> help(package-plyrmr) 


12.10 ”使 用 plyrmr 处 理 数据 


尽管 相对 直接 写 一 个 原始 的 Java 版 MapReduce 程 序 ， 使 用 rmr2 包 来 写 MapReduce 程 序 要 简单 得 多 ， 但 这 个 任务 对 一 个 非 程序 员 而 言 难 度 依然 很 大 。 因 此 ， 我 们 可 以 使 用 plyrmr 包 一 一 MapReduce 程 
序 的 一 个 较 高 程度 的 抽象 ， 完 成 类 plyr 的 操作 来 实现 对 大 数据 集 的 操作 。 本 节 将 介绍 一 些 用 于 数据 操作 的 命令 。 


1. 准 备 

读者 需要 在 R 中 先 安装 好 plyrmr 和 rmr2 两 个 包 。 
2. 操 作 

执行 以 下 操作 实现 通过 plyrmr 对 数据 的 操作 : 


1) 在 R 中 装载 plyrmr 和 rmr2 两 个 包 : 


> library(rmr2) 


> library(plyrmr) 
2) 将 执行 模式 设置 为 本 地 模式 : 
> plyrmr.options (backend-"local") 
3) 将 Titanic 数 据 装 入 R 会 话 : 


> data(Titanic) 


> titanic = data.frame(Titanic) 


4) 启动 数据 筛选 操作 : 


> where( 
+ Titanic, 


+ Freq >=100) 
5) 可 以 使 用 一 个 管道 操作 符 对 数据 进行 筛选 : 
> titanic %|% where(Freq »-100) 
6) 将 Titanic 数 据 集 导 入 HDFS 中 ， 将 数据 存放 路 径 加 载 到 变量 titdata 中 


> tidata = to.dfs(data.frame(Titanic), output = '/tmp/titanic') 
» tidata 


7) 生成 Titanic 数 据 集 的 频数 统计 信息 : 
> input(tidata) %|% transmute(sum(Freq)) 
8) 按 性 别 分 组 再 次 统计 频数 信息 : 
> input(tidata) %|% group (Sex) %|% transmute (sum(Freq)) 
9) 从 处 理 结果 中 选择 10 条 记录 : 


> sample (input (tidata), nz10) 


10) 除了 以 上 操作 ， 可 以 使 用 plyrmr 连 接 两 个 数据 集 : 


> convert tb = data.frame(Labelzc("No","Yes"), Symbol-zc(0,1)) 
ctb = to.dfs(convert tb, output = 'convert') 


> as.data.frame(plyrmr::merge(input(tidata), input (ctb), 
by.x-z"Survived", by.y-z"Label")) 


> file.remove('convert') 


3. 原 理 


本 节 介 绍 了 使 用 plyrmr 包 操作 数据 的 方法 ， 首 先 ， 我 们 需要 在 R 中 导入 plyrmr 包 ， 然 后 与 使 用 rmr2 包 类 似 ， 也 需要 将 plyrmr 的 backend 属 性 设置 为 本 地 模式 ， 否 则 一 旦 plyrmr 是 以 Hadoop 模 式 (默认 
模式 ) 运行 ， 我 们 就 不 得 不 等 待 几 分 钟 到 几 小 时 不 等 的 时 间 。 





接 下 来 ， 我 们 首先 进行 数据 的 得 查 ， 我 们 可 以 选择 步骤 4 所 示 的 操作 ， 调 用 典 入 在 其 他 函数 中 的 函数 ， 或 者 使 用 步骤 5 所 示 的 管道 操作 符 一 一 %|%， 来 执行 这 一 系列 操作 。 


然后 ， 我 们 可 以 将 数据 集 输 入 在 HDFs 中 或 者 本 地 文件 系统 内 ， 如 果 是 存放 在 HDFS 中 ， 则 使 用 to.dfs 模 式 ， 并 将 生成 的 数据 存放 路 径 放 在 tidata 变 量 中 。 当 路 径 已 知 时 ， 就 可 以 通过 input 函 数 访 问 数 
据 。 我 们 接 下 来 还 可 以 通过 transmute 和 Sum 函数 得 到 Titanic 数 据 集中 频数 统计 信息 。 同 样 ，plyrmr 包 也 人 允许 用 户 以 性 别 分 组 再 统计 相关 频数 。 


另外 ， 如 果 我 们 希望 从 数据 集中 获得 样本 数据 ， 可 以 使 用 sample 函 数 从 Titanic 数 据 集中 获得 10 条 记录 ， 最 后 ， 我 们 展示 了 如 何 使 用 plyrmr 包 的 merge 函 数 完成 两 个 数据 集 的 链接 。 


4 扩展 
我 们 列 出 了 一 些 在 plyrmr 包 中 可 以 用 来 进行 数据 操作 的 函数 ， 读 者 可 以 通过 调用 help 国 数 了 解 更 多 有 关 这 些 函 数 的 功能 和 使 用 方法 : 
数据 操作 : 
* bind.cols: 增加 一 个 新 列 。 
select: 选择 目标 列 。 
| where: 选择 目标 行 。 
“ ttansmute: 实现 上 述 三 个 操作 ， 同 时 增加 统计 总 和 功能 。 
: teshape2: 
: meltfedcast: 可 以 对 多 列 多 行 的 数据 框架 进行 变形 。 
<- Summary: 
* counto 
- quantiles 
- sample. 
: Extract: 
' top.k。 


: bottom.k. 


12.11 在 RHadoop 中 实施 机 器 学 习 


在 前 述 章节 中 ， 我 们 领略 了 R 应 用 于 机 器 学 习 领 域 方面 的 优越 性 ， 同 样 ， 我 们 也 学 习 了 基于 Hadoop 框 架 使 用 R 并 行 处 理 大 数据 集 的 方法 。 因 此 ， 可 能 有 的 读者 会 认为 通过 RHadoop 提 供 的 多 种 机 器 学 习 
算法 包 能 够 很 轻松 地 实现 大 数据 集 处 理 ， 而 实际 情况 却 是 我 们 并 不 能 如 愿 以 偿 ， 因 为 这 些 算 法 均 不 能 直接 应 用 于 MapReduce 环 境 。 本 节 将 探讨 如 何 实现 一 个 MapReduce 版 本 的 线性 回归 算法 ， 并 将 它 与 通 
过 Im 函数 实现 的 线性 回归 方法 进行 比较 。 


1. 准 备 
本 节 ， 读 者 需要 提前 在 R 中 安装 好 rmr2 包 。 
2. 操 作 
执行 以 下 操作 ， 在 MapReduce 中 实现 线性 回归 算法 : 


1) 首先 ， 从 MASS 包 导入 cats 数 据 集 : 


V 


library (MASS) 
» data(cats) 


> X 


matrix(catsS$Bwt) 


matrix(catsS$Hwt) 


” F 


2) 调用 Im 函 数 生成 一 个 线性 回归 模型 : 


> model = lm(y-X) 


> summary (model) 


Call: 
lm(formula - y - X) 


Residuals: 
Min 10 Median 3Q Max 
-3.5694 -0.9634 -0.0921 1.0426 5.1238 


Coefficients: 
Estimate Std. Error t value Pr(»|t|) 


(Intercept)  -0.3567 0.6923  -0.515 0.607 
X 4.0341 0.2503 26.119 <2e-16 *** 


Signif. codes: 
0 Tee 0.001 TE DUI "=t 0205 Tit Us * o*" 2 


Residual standard error: 1.452 on 142 degrees of freedom 
Multiple R-squared: 0.6466, Adjusted R-squared: 0.6441 
F-statistic: 259.8 on 1 and 142 DF, p-value: < 2.2e-16 


3) 根据 给 定数 据点 和 模型 绘制 回归 图 : 


> plot(y~X) 


> abline(model, col="red") 
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cats 数 据 集 的 线性 回归 图 


4) 在 R 中 装载 rmr2: 


> Sys.setenv(HADOOP CMD-"/usr/bin/hadoop") 


> Sys.setenv(HADOOP STREAMING-"/usr/lib/hadoop-mapreduce/hadoop--^» 
streaming-2.5.0-cdh5.2.0.jar") 


> library (rmr2) 
> rmr.options (backend-"local") 


5) 确定 X 和 y 的 值 : 


> X = matrix(catsS$Bwt) 
> X.index = to.dfs(cbind(1:nrow(X), X)) 


> y = as.matrix(cats$Hwt) 


6) 生成 一 个 Sum 函 数 求 值 的 和 |: 


> Sum = 
+ function(., YY) 
+ keyval(1, list (Reduce('+', YY))) 


7) 在 MapReduce 的 Job1 中 计算 Xtx: 


> XtX = 


十 values( 

- from.dfs(í( 

十 mapreduce( 

ái input = X.index, 

- map - 

+ function(., Xi) ( 

" Xi = Xi[,-1] 

4 keyval(1, list(t(Xi) %*% Xi))}, 
+ reduce = Sum, 

+ combine = TRUE))) [[1]] 


8) 在 MapReduce 的 Job2 中 计算 Xty: 


Xty = 

+ values( 

一 from.dfs( 

十 mapreduce( 

十 input = X.index, 

+ map = function(., Xi) ( 
" yi - yI[Xi[,11,1] 

" Xi = Xil,-11] 

4 keyval(1, list(t(Xi) %*% yi))), 
十 reduce = Sum, 

$ combine = TRUE)))[[11] 


9) 最 后 ， 从 Xtx 和 Xty 得 到 系数 : 


> solve (XtX, Xty) 
[,1] 
[1,1 3.907113 


3. 原 理 


本 节 探 讨 了 在 R 中 实现 MapReduce 模 式 的 线性 回归 算法 。 我 们 首先 回顾 了 采用 传统 线性 模型 方法 ， 首 先 从 MAss 包 中 获取 cats 数 据 集 ， 然 后 将 体重 (Bwt) 作为 横 轴 x， 心 脏 重 量 (Hwt) 为 纵 轴 y。 


接 下 来 ， 调 用 Im 卫 数 使 用 该 数据 集训 练 得 到 一 线性 回归 模型 ， 然 后 获得 模型 的 统计 信息 。 从 结果 可 知 ， 回 归 系数 为 4.0341， 截 距 为 -0.3567。 另 外 ， 我 们 绘制 了 给 定数 据点 的 散 点 图 以 及 相应 的 回归 直 
线 。 


由 于 Im 函 数 不 能 直接 转换 成 MapReduce 模 式 ， 我 们 需要 重新 写 一 个 MapReduce 版 本 的 线性 回归 算法 。 可 以 分 三 步 完 成 这 个 任务 : 首先 利用 MapReduce 的 Job1 计 算 Xtx 的 值 ， 再 利用 MapReduce 的 
Job2 计 算 Xty 的 值 ， 最 后 得 到 系数 的 值 : 


` 第 一 步 ， 我 们 将 矩阵 X 作 为 map 函 数 的 输入 ，map 范 数 将 计算 x 的 转 置 和 矩阵 和 X 的 向 量 积 ， 再 由 reduce 咏 数 计算 之 前 结果 的 和 。 
` 第 二 步 ， 计 算 Xty 的 过 程 与 计算 Xtx 的 过 程 类 似 ， 也 是 先 计 算 X 的 转 置 矩 阵 与 y 的 向 量 积 ， 再 调用 reduce 函 数 求 和 。 
| 第 三 步 ， 调 用 solve 函 数 计 算得 到 回归 系数 为 3.907113。 


正如 结果 所 示 ，|m 方 法 和 MapReduce 得 到 的 结果 差别 很 小 ， 通 常 而 言 ， 由 Im 模型 得 到 的 系数 比 MapReduce 得 到 的 系数 更 准确 。 不 过 ， 如 果 我 们 的 数据 集 大 到 无 法 完全 放 在 内 存 里 ， 除 了 在 
MapReduce 里 实现 线性 回归 处 理 也 再 没有 其 他 的 选择 了 。 


4 扩展 


对 机 器 学 习 算法 感 兴趣 的 读者 可 以 访问 以 下 网 站 ， 以 获得 更 多 帮助 : https;//github.com/RevolutionAnalytics/rmr2/tree/master/pkg/tests, 


12.12. fEAmazon EMR 环 境 中 配置 RHadoop 机 群 


到 目前 为 止 ， 我 们 只 展示 了 RHadoop 程 序 在 单个 Hadooop 结 点 上 运行 ， 要 测试 RHadoop 程 序 多 结 点 集群 上 的 性 能 ， 必 须要 在 集群 的 所 有 任务 结 点 上 都 安装 好 RHadoop ( 结 点 既 可 以 安装 mapreduce 
版 本 1 的 task tracker， 也 可 以 安装 mapreduce 版 本 2 的 node manager) 。 然 而 配置 和 安装 过 程 非 常 耗 时 ， 因 此 我 们 可 以 选择 在 Amazon EMR 上 部 署 自己 的 RHadoop 程 序 ， 从 而 能 够 在 几 分 钟 之 内 就 可 以 
完成 多 结 点 集群 的 部 署 和 在 每 个 任务 结 点 安装 RHadoop 的 工作 。 本 节 将 探讨 如 何 利 用 Amazon EMR 提 供 的 服务 完成 RHadoop 集 群 配置 。 


1. 准 备 


在 本 节 ， 读 者 需要 首先 在 AWS 上 注册 一 个 账号 ， 并 在 使 用 Amazon EMR 之 前 先 了 解 清楚 生成 EC2 键 值 对 的 方法 。 


如 果 读 者 希望 了 解 使 用 AWS 的 方法 ， 请 参考 Amazon 公 司 提供 的 帮助 文档 : 


http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/EC2 GetStarted.html, 


2. 操 作 


执行 以 下 操作 ， 完 成 在 Amzon EMR 上 配置 RHadoop 的 任务 : 


1) 首先 ,访问 Amazon 的 Web 服 务 器 ， 地 址 为 : 
https://uswest-2.console.aws.amazon.com/console/, 


在 analytics 栏 找到 EMR， 单 击 EMR。 
Services v 


Amazon Web Services 


Compute 
EC2 


Virtual Servers in the Cloud 


Lambda PREVIEW 
Run Code in Response to Events 


storage & Content Delivery 


S4 
scalable Storage in the Cloud 


storage Gateway 
Integrates On-Premises IT Environments with 
Cloud Storage 


Glacier 
Archive Storage in the Cloud 


CloudFront 
Global Content Delivery Network 


Database 


RDS 
MySQL, Postgres, Oracle, SQL Server, and 
Amazon Aurora 


DynamoDB 
Predictable and Scalable NoSOQL Data Store 


d ElastiCache 
"we in-Memory Cache 


Redshift 
Managed Petabyte-scale Data Varenouse 
Service 


Networking 


2) 在 EMR 的 控制 面板 上 找到 Cluster 栏 ， 地 址 为 : 


Administration & Security 


Directory Service 
Managed Directories in tha Cloud 


Identity & Access Management 
Access Control and Key Management 


Trusted Advisor 
AWS Cloud Optimization Expert 


Cloud Trail 

User Activity and Change Tracking 
Config PREVIEW 

Resource Configurations and Inventory 
CloudWatch 


Resource and Application Monitoring 


> 
T 
t 
1 
T 
e 


Deployment & Management 
Elastic Beanstalk 
AWS Application Container 
OpsWorks 


DevOps Application Management Service 


CloudFormaton 
| Templated AWS Resource Creation 


CodeDeploy 
H Iz LJ 


Analytics 


alin EMR 
WS Managed Hadoop Framework 


^Inesm 
£m Real-time Processing of Streaming Big Data 


从 AWS 控 制 台 访 问 EMR 服 务 


https://us-west-2.console.aws.amazon.com/elasticmapreduce/home?region-z us-west-2*cluster-list: : , 


单 击 Create cluster, 


Services v 
Elastic MapReduce ~ Cluster List 
View details Clone 


Filter. |. All clusters * [Filler clusters 


Name 


3) 进入 Create Cluster 页 面 ， 地 址 为 : 


Terminate 


B clusters fall loaded) 


ID Creation time [UTC48] 到 





EMR 集 群 列表 


https://uswest-2.console.aws.amazon.com/elasticmapreduce/home?region=uswest-2#create-cluster: , 


Application Services 


sas 
Message Queue Service 


SWF 
Workflow Service for Coordinating Application 
Components 


AppsStream 
Low Latency Application Streaming 


Elastic Transcoder 
Easy-to-use Scalable Media Transcoding 


SES 


Email Sending Service 


Gloudsearch 
Managed Search Service 


oO e 0 o e 9 


Mobile Services 


fe Cognito 
z] User Identity and App Data Synchronization 


a» Mobile Analytics 
E Understand App Usage Data at Scale 


SNS 
Push Notification Service 
Enterprise Applications 


向 WorkSpaces 
Desktops in the Cloud 


Zocalo 
Secure Enterprise Storage and Sharing Service 





Dawid Chiu ~ Oregon » Support v 


EMR Help 


Elapsed time Normalized 


instance hours 


4) 在 集群 配置 页 面 中 指明 Cluster name 和 Log folder S3location: 


Cluster Configuration 


Cluster name Ithadoop — — — — — — — —  — 


Termination protection. gy Yes 
No 


Logging gi Enabled 


Log folder 53 location 


s3-//rhadoop/| 


S3 //«buckei-name»/«folder-/ 


Debugging fg Enabled 





集群 创建 页 面 配置 集群 信息 


5) 在 Software Configuration 完 成 Hadoop 的 部 署 : 


Software Configuration 
Hadoop distribution © Amazon Use Amazon's Hadoop distribution. Learn more 
AMI version 
3.3.1 v | Determines the base configuration of the instances in 


- your cluster, including the Hadoop version. Learn more | 


MapR Use MapR's Hadoop distribution. Learn more 
Applications to be installed Version 
Hive 0.13.1 5X o 
Pig 0.12.0 XO 
Hue 360 ,pX e 


Additional applications | select an application 


Configure and add 





配置 软件 和 应 用 程序 


6) 在 Hadoop 集 群 中 配置 结 点 个 数 : 


Hardware Configuration 


€ Specify the networking and hardware configuration for your cluster. If you need more than 20 EC2 instances, complete this form. 
Request Spot instances (unused EC2 capacity) to save money. 


Network |vpc-9d5d3915 (172.31.0.0/16) (default) 7 | Use a Virtual Private Cloud (VPC) to process sensitive 
o 4ata or connectto a private network Create a VPE 














EC2 Subnet | No preference (random subnet) v| Create a Subnet 
Type Name EC2 instance type Count Request spot Bid price 


Master [Master instance group-] [m3xlarge — — 


Core [Core instance group - 2 | m1 large 


Task [Task instance group -3 | |mi.medium | 

















Add task instance group 





在 Hadoop 集 群 中 配置 硬件 


7) 为 master 结 点 登录 配置 EC2 的 键 值 对 : 


Security and Access 


EC2 key pair |e&c2-startup y| Usean existing ECZ key palr to SSH Into tne master node 


i of the Amazon EMR cluster. Learn more 











IAM user access 4 All other LAM users Control the visibility of this clusterto other IAM 
users. Learn more 


Mo other LAM users 





EMR 集 群 mastet 结 点 的 访问 及 安全 模式 配置 


8) 要 完成 RHadoop 配 置 ， 需 要 在 每 个 任务 结 点 安装 RHadoop 并 执行 bootstrap action ， 请 创建 一 个 名 为 bootstrapRHadoop.sh 的 文件 ， 并 输入 以 下 内 容 : 


echo 'install.packages(c("codetools", "Rcpp", "RJSONIO", "bitops", 
"digest", "functional", "stringr", "plyr", "reshape2"*, "nlava*, 
"caTools"), repos-"http://cran.us.r-project.org")' > /home/hadoop/ 
installPackage.R 

sudo Rscript /home/hadoop/installPackage.R 


wget --no-check-certificate https://raw.githubusercontent.com/ 
RevolutionAnalytics/rmr2/master/build/rmr2 3.3.0.tar.gz 


sudo R CMD INSTALL rmr2 3.3.0.tar.gz 


wget --no-check-certificate https://raw.github.com/ 
RevolutionAnalytics/rhdfs/master/build/rhdfs 1.0.8.tar.gz 


sudo HADOOP CMD-/home/hadoop/bin/hadoop R CMD INSTALL 
rhdfs 1.0.8.tar.gz 


9) 将 bootstrapRHdoop.sh 上 传 到 S3。 


10) 将 bootstrap action 添 加 到 Custom action 中 ， 并 将 s3: //<location>/bootstrapRHadoop.sh 添 加 到 S3 中 。 


| Bootstrap Actions 


(f Bootstrap actions are scripts that are executed during setup before Hadoop starts on every cluster node. You can use them to install 
additional software and customize your applications. Learn more 


Bootstrap action type Name $3 location Optional arguments 


sa pccproject/bootstrapRHa 
doop.sh 


Add bootstrap action 


Configure and add 


Custom action Custom action 





配置 bootstrap action 


11) 单 击 Create cluster 启 动 Hadoop 集 群 : 


Steps 


configure an application. You can submit up to 256 steps to a cluster. Learn more 


Hame Action on failure JAR location Arguments 


Add step | Select a step 


Configure and add 


Aute -te rminate Yes Automatically terminate duster after the last step is 
completed 


A No «een cluster running until you terminate It. 


Cancal Create cluster 





创建 集群 


12) 最 后 ， 当 集群 就 绪 后 ， 查 看 master 结 点 的 公共 DNS， 通 过 用 户 的 EC2- 键 值 对 访问 master 结 点 的 终端 : 


Ls 
L| | Smig c David Ohiu — Oregon Support ~ 


Elastic MapReduce ~ Cluster List » Cluster Details EMR Help 
Add step Resize clone Terminate 


Cluster. rhadoop Waiting Waiting after step completed 


Connections: Enable Web Connection 一 Hue, Resaurce Manager view AJNI 
Master public DNE 


Tags: -— Miew All? Eds 


Summary Configuration Details SecuritylNetwork Hardware 
ID: |-ZCLSBXT235NEZ AMI version: 3 3.1 Availability us-wesi-2a 
Creation date: 2014-12-17 15:41 (UTC«6) Hadoop Amazon 2.4.0 Dim: 
Elapsed time: 1E minutes distribution: Subnet ID: subnet-Td041016 
Auto-terminate: No Applieations: Hive 0.13.7. Pig 0.12 0. Hue Key name: DSP-EC? 
Termination On Change Leg URI: s3wrhadoo E EC? instances -- 
protection: EMRE & Disabled profile: 
consistent EMR role: -- 
view: 


Master Runnin 1 m3 arge 
care: -- 
Task: -- 


Visible to all AI Change 
users: 





已 创建 好 的 集群 截屏 
3. 原 理 


本 节 展 示 了 在 Amazon EMR 上 配置 RHadoop 的 过 程 ， 通 过 这 种 方式 ， 我 们 在 几 分 钟 内 单 击 鼠 标 就 能 非常 容易 地 按照 我 们 的 需要 创建 成 功 一 个 可 扩展 的 Hadoop 环 境 。 不 过 ， 我 们 仍 需要 为 每 个 实例 运 
行 占用 的 时 间 付 费 。 在 使 用 Amazon EMR 之 前 ， 我 们 必须 要 创建 一 个 AWs 账 号 ， 以 及 了 解 建立 EC2- 键 值 对 和 33 的 方法 ， 然 后 再 在 Amazon EMR 上 启动 RHadoop。 


具体 实施 时 ， 首 先 访问 EMR 集 群 页 面 ， 并 单 击 Create cluster， 然 后 进入 相应 的 集群 配置 页 面 查看 配置 表 ， 输 入 用 户 的 集群 名 称 和 日 志文 件 在 93 上 的 存放 路 径 。 
接 下 来 ， 在 同一 页 面 完成 软件 配置 以 及 选择 Hadoop 部 署 位 置 ，Amazon 支 持 自 有 部 署 模式 以 及 MapR 部 署 模式 。 通 常情 况 下 ， 如 果 用 户 不 需要 更 改 默认 部 署 模式 ， 可 以 直接 跳 过 该 步骤 。 


然后 是 硬件 的 配置 ， 需 要 分 别 指定 master、core 以 及 task 结 点 。 一 般 默 认 一 个 集群 只 配置 一 个 master 结 点 和 两 个 core 结 点 ， 用 户 也 可 以 根据 需要 添加 更 多 个 core 结 点 和 task 结 点 。 然 后 确定 登录 
master 结 点 的 键 值 对 。 


接 下 来 ， 需 要 将 所 有 启动 脚本 存放 在 一 个 名 为 bootstrapRHadoop.sh 的 文件 中 ， 文 件 创建 后 ， 我 们 需要 把 它 存 储 在 33 上 ， 并 将 custom action 指 定 为 Bootstrap Action， 将 bootstrapRHadoop.sh 作 为 
Bootstrap 的 脚本 。 再 单 击 Create cluster 等 待 集群 准备 就 绪 。 然 后 获得 master 结 点 的 公共 DNS， 就 可 以 通过 EC2- 键 值 对 访问 master 结 点 的 终端 了 。 


注意 ， 一 定 要 在 不 需要 使 用 EMR 服 务 时 停止 该 终端 运行 的 实例 ， 否 则 你 就 要 为 运行 每 个 实例 所 花费 的 时 间 付费 了 。 
4 扩展 


.Google 同样 也 提供 了 它 的 云 解 决 方案 一 Google 计 算 引 擎 。 如 果 读 者 对 此 感 兴趣 ， 可 以 参考 以 下 文档 : https://cloud.google.com/compute/ o 


附录 AR 和 机 器 学 习 的 资源 


下 表 中 列 出 了 所 有 R 和 机 器 学 习 的 资源 : 





标题 
R in Action 


The Art of R 
Programming: A 
Tour of Statistical 
Software Design 


An Introduction to R 


Quick-R 


标题 
Computing for Data 
Analysis (with R) 


Data Analysis 


Data Analysis and 
Statistical Inference 


http://www.amazon.com/R-Action- 


Robert-Kabacoff/dp/1935182390 


http: //www.amazon.com/The-Art- 


Programming-Statistical-Software/ 
dp/1593273843 


http://cran.r-project.org/doc/ 


manuals/R-intro.pdf 


http://www.statethods.net/ 


https://www.coursera.org/course/ 
compdata 
https://www.coursera.org/course/ 


dataanalysis 


https://www.coursera.org/course/ 


statistics 


作者 


Robert Kabacoff 


Norman Matloff 


W. N. Venables, D. 
M. Smith, and the R 
Core Team 

Robert I. Kabacoff. 
PhD 


作者 


Roger D. Peng. Johns 
Hopkins University 
Jeff Leek, Johns 
Hopkins University 
Mine Cetinkaya- 
Rundel. Duke 





University 








(£) 

标题 作者 
Machine Learning http: //www.amazon.com/dp/144930371 Drew Conway and 
for Hackers 4?tag-inspiredalgor-20 John Myles White 
Machine Learning http://www.packtpub.com/machinelearning- 
with R with-r/book A 

在 线 博客 

标题 链接 
R-bloggers http://www.r-bloggers.com/ 
The R Journal http://journal.r-project.org/ 

CRAN task view 
标题 链接 


CRAN Task View: Machine 


nct http://cran.r-project.org/web/views/ 
Learning and Statistical Ben < 


MachineLearning.html 
Learning 


附录 B Titanic FARRER 


在 开始 学 习 之 前 ， 我 们 首先 介绍 一 下 本 书 采 用 的 样 例 。 该 样 例 数据 集 来 自 RMS Titanic 号 乘客 的 人 口 统计 信息 ， 由 Kaggle (https://www.kaggle.com/， 一 个 数据 预测 竞赛 平台 ) 提供 。 预 测 目标 是 判 
断 该 乘客 是 否 能 够 从 沉船 中 逃生 出 来 。 


使 用 该 数据 集 主要 有 以 下 两 个 原因 : 


: RMS Titanic 被 认为 史上 影响 力 最 大 的 沉船 事件 ，2224 名 乘客 和 船员 中 共有 1502 名 乘客 遇难 。 而 当 沉 船 发 生 时 ， 乘 客 的 逃生 机 会 并 不 完全 是 偶然 的 ， 实 际 上 ， 舱 位 等 级 、 性 别 、 年 龄 以 及 其 他 一 些 因素 


都 有 可 能 对 逃生 成 功 与 否 有 影响 。 
- 这 是 一 个 相对 简单 的 数据 集 ， 读 者 不 需要 花费 大 量 时 间 用 于 数据 的 预 处 理 〈 除 了 某 些 缺 失 数据 ) ， 使 得 我 们 可 以 专注 于 分 析 任 务 本 身 。 


以 下 是 目标 数据 集 的 特征 说 明 : 


变量 说 明 : 

survival Tf (0=No，1=Yes ) 
pclass 乘客 等 级 ( 1= 头等 ; 2=2 等 ; 3 
name 姓名 

SeX 性 别 

age ERS 

sicbsp 同 船 兄弟 姐妹 数 

parch 同 船 父 母 /子女 人 数 

ticket DE 

fare 票 价 

cabin 客舱 

embarked 登 船 的 港口 (C=Cherbourg; Q=Queenstown; S=Southampton ) 


特别 说 明 : 

pclass 是 对 乘客 社会 经 济 地 位 的 一 种 估计 : 1~ 上 等 ; 2~ 中 等 ; 3~ 下 等 。 

age 代表 年 龄 ， 如 果 小 于 1 用 分 数 表 示 ; 如 果 年 龄 是 估计 的 ， 用 XX，5 的 格式 

在 考虑 兄妹 数 或 父母 子女 信息 时 ， 忽 略 了 一 些 相 关 性 ，sibsp 和 parch 采用 如 下 原则 确定 : 

Sibling: 同 船 的 兄弟 、 姐 妹 、 继 兄妹 

Spouse: 同 船 的 夫妻 (未 婚 夫妻 或 非 正式 夫妻 忽略 ) 

Parent: 同 船 父母 

Child: 同 船 的 儿子 、 女 儿 或 继 子 女 

其 他 家 庭 成 员 关 系 包括 姨 母 、 外 牧 /外 物 女 、 叔 叔 / 叔 母 等 都 不 在 讨论 沁 转 之 内 ， 有 的 小 孩 是 跟随 保姆 出 行 ， 
所 以 parch 这 一 栏 为 0。 其 他 来 目 同 一 个 地 方 的 好 朋友 或 邻居 一 起 出 行 的 也 不 在 讨论 范围 中 。 





读者 可 能 对 属性 说明 存在 疑问 ， 例 如 : “数据 集中 是 否 存 在 缺失 数据 ? ” “Titanic 号 上 乘客 的 平均 年 龄 是 多 少 ?” “乘客 生还 比例 是 多 少 ”” “乘客 大 多 属于 哪个 社会 阶层 ?” ”所 有 这 些 问题 都 会 在 本 
书 第 2 章 找到 答案 。 


除了 以 上 与 数据 描述 相关 的 问题 ， 第 2 章 最 根本 的 目的 在 于 生成 一 个 模型 ， 通 过 输入 参数 预测 乘客 生还 的 概率 。 另 外 ， 我 们 还 将 评估 这 些 模 型 的 性 能 判断 其 是 否 适 合 描述 问题 。 


